Аннотация:Данная статья посвящена попытке применения современных методов NLP для оптимизации процесса распознавания текста исторических источников. Любой исследователь, решивший воспользоваться инструментами распознавания отсканированных текстов, столкнется с рядом ограничений точности конвейера (последовательности операций распознавания). Даже наиболее качественно обученные модели могут давать существенную ошибку по причине неудовлетворительного состояния дошедшего до нас источника: порезы, изгибы, кляксы, стертые буквы – всё это мешает качественному распознаванию. Наше предположение состоит в том, что, используя заранее заданный набор слов, маркирующих присутствие интересующей нас темы, с помощью модуля нечетких множеств (Fuzzy sets) из NLP-библиотеки SpaCy, мы сможем восстановить по шаблонам те слова, которые по итогам процедуры распознавания оказались распознаны с ошибками.