![]() |
ИСТИНА |
Войти в систему Регистрация |
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
Целью исследования является семантический информационный поиск, т.е. нахождение наиболее релевантных к запросу документов не только по совпадающим словам, но и по смыслу.. Семантический поиск должен обеспечивать нахождение релевантных документов даже в условиях отсутствия лексического совпадения между запросом и документом. Проблема отсутствия лексического совпадения между запросом и документов усиливается с ростом длины поискового запроса.
The scientific problem considered in the project is the so-called semantic information retrieval, i.e. finding the documents most relevant to the query not only by matching words, but also by meaning. Semantic search should ensure the finding of relevant documents even in the absence of a lexical match between the query and the document. The problem of lack of lexical match between the query and the documents increases with the length of the search query. Methods and models based on transformer neural network architecture that have appeared in the last five years provide new opportunities for training specialized search models that allow you to search for relevant documents regardless of the lexical expression of meaning; large language models allow apply ing new approaches to expanding queries and documents. However, most approaches are studied on English data, evaluated on English-language benchmarks; the performance quality of these models on different types of Russian-language text data is unknown. In addition, there is the so-called model transfer problem: applying modern neural network approaches to information retrieval requires training the model on a large dataset with available relevance scores, and after training the model is applied to completely different data. During this transfer, a significant part of the model’s effectiveness may be lost; in this regard, it is of great importance to study the robustness of the search model or combinations of search models to transfer between text collections, subject areas, and types of queries. The specific task of the project is to create a so-called benchmark, i.e. a set of datasets for assessing the quality of information retrieval models for the Russian language. Based on the created benchmark, existing information retrieval models will be tested, including classical lexical methods (based on tf.idf, BM25 metrics), based on dense (dense) vector representations of queries and texts created using transformer encoders, methods for expanding queries and documents by large language models, combined approaches, including approaches based on reranking, etc. Based on the research, it is planned to develop new methods with optimal characteristics of search quality and speed for the Russian language, develop recommendations for the use of different search models for different types of text data and different search engines tasks. The stated task of creating benchmark for testing information retrieval methods for the Russian language has a comprehensive scale, since currently many organizations have large volumes of internal text data through which they need to search for the necessary information; search in text collections is needed for subject-oriented text collections, to solve related tasks such as creating question-answer systems, fact-checking, text classification, finding contradictions in the text, etc. As a result of the project, a benchmark will be created and published, containing at least 20 different datasets, to assess the quality of information retrieval methods for the Russian language; existing information retrieval models will be assessed based on the benchmark; new specialized models for the Russian language will be created and published, recommendations will be developed for the application of models and their combinations to different types of text collections and search queries.
В результате проекта 1) будет создан и опубликован бенчмарк, содержащий не менее 20 разнообразных датасетов, для оценки качества методов информационного поиска для русского языка; 2) на основе бенчмарка будут оценены существующие модели информационного поиска, включая модели на основе энкодеров трансформера и больших языковых моделей, 3) будут созданы и опубликованы новые специализированные модели для русского языка; 4) будут выработаны рекомендации по по применению моделей и их комбинаций к разным типам текстовых коллекций и поисковых запросов.
Коллектив имеет опыт различных задач информационного поиска, включая поиск документов по запросу, автоматическая классификация текстов (Лукашевич и др. 2018), автоматическая кластеризация текстов, автоматическое аннотирование (реферирование), извлечение информации из текстов , создание информационно-аналитических систем. Добров Б.В. совместно с техническим директором компании Яндекс И. Сегаловичем, сотрудниками Санкт-Петербургского университета И. Некрестьяновым и И. Кураленком был основателем Российского семинара по методам информационного поиска РОМИП (http://www.romip.ru/). Целью семинара было создание наборов данных для проведения независимой оценки методов информационного поиска, ориентированных на работу с русскоязычной информацией. В 2004 году Добров Б.В. получил грант фонда РФФИ (04-07-90280-в) для организации тестирования систем информационного поиска в рамках семинара РОМИП. В течение 9 лет работы семинара были созданы и проведены тестирования по таким направлениям как поиск по веб-коллекциям, поиск по коллекции законодательства, классификация интернет-страниц и сайтов, вопросно-ответные системы, автоматическое порождение аннотаций, анализ тональности, и др. В работе семинара принимали участие представители таких организаций, как компании Яндекс, MailRu, Rambler, RCO, HP Labs. КМ онлайн, Галактика и др. Добров Б.В. является руководителем разработки информационно-аналитической системы NEARIDX, которая была поставлена в ряд российских государственных организаций. В системе реализованы различные функции интеллектуальной обработки текстов, включая не только поиск по словам, но и понятиям и отношений онтологий, что позволяет делать расширение запроса, индексы по извлеченным именованным сущностям, по различным классификаторам, фасетный поиск, имеются развитые средства анализа (спектрально-фасетный анализ, когнитивные схемы), средства порождения отчетов по заданной теме на основе автоматической классификации и кластеризации анализируемых текстов.
Создан бенчмарк для оценки методов информационного поиска для русского языка, содержащий более 20 датасетов. На бенчмарке оценены методы информационного поиска. Опубликованы статьи.
грант РНФ |
# | Сроки | Название |
1 | 1 января 2025 г.-31 декабря 2025 г. | Семантический поиск на основе нейросетевых моделей информационного-поиска для русского языка: создание бенчмарка и разработка новых моделей |
Результаты этапа: | ||
2 | 8 января 2026 г.-31 декабря 2026 г. | Семантический поиск на основе нейросетевых моделей информационного-поиска для русского языка: создание бенчмарка и разработка новых моделей. Этап 2 |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".