![]() |
ИСТИНА |
Войти в систему Регистрация |
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
Библиотека «Лингвистический процессор v 4.0» предназначена для обработки текстовых документов. Библиотека имеет поддержку следующих языков: русский (словарная и бессловарная морфологии), английский (словарная и бессловарная), немецкий (словарная и бессловарная), испанский, французский, украинский, арабский и вьетнамский (бессловарная). Библиотека полностью Unicode-совместима, для внутреннего представления текста используется кодировка UTF-8. Функции библиотеки при работе с документами: определение языка документа, разбиение на слова, разбиение на предложения, разбиение на абзацы, лемматизация. Функции библиотеки при работе со словами: лемматизация, стемматизация, восстановление, получение информации о слове и словоформе, нормализация текстового представления, включая UTF-8 NFKC-канонизацию.