Роль программы проверки удмуртской орфографии в пополнении Национального корпуса удмуртского языкастатья
Статья опубликована в журнале из списка RSCI Web of Science
Информация о цитировании статьи получена из
Web of Science
Статья опубликована в журнале из перечня ВАК
Дата последнего поиска статьи во внешних источниках: 1 февраля 2021 г.
Аннотация:Корпусная лингвистика – на данный момент одно из самых популярных разделов языкознания. Большинство крупных языков мира сегодня уже имеет свои электронные корпуса объемом в десятки и сотни миллионов словоупотреблений. В последнее время созданию корпусов текстов на языках народов России также уделяется особое внимание, поскольку, с одной стороны, корпусные исследования позволяют взглянуть на устройство языка с совершенно иного ракурса; с другой стороны, корпус – это своеобразная форма сохранения языковых данных. В статье описывается Национальный корпус удмуртского языка (Удмурт йӧскалык кылшыкыс), который разрабатывается с конца 2019 года сотрудниками отдела филологических исследований Удмуртского института истории, языка и литературы УдмФИЦ УрО РАН. Подробно говорится о возможностях создаваемой информационно-справочной системы на данный момент, а также о перспективах использования корпуса текстов при проведении исследований, подготовке словарей и создании различных программ по удмуртскому языку. В статье идет речь также о программе проверки удмуртской орфографии на основе Hunspell, разработанной Григорием Григорьевым, которая играет немаловажную роль в пополнении Национального корпуса удмуртского языка. Перед загрузкой на сайт новых текстов все они подвергаются обязательной проверке на наличие орфографических ошибок, которые могли остаться при их вычитке. Данное расширение для текстовых редакторов, благодаря словарной базе, связанной с файлом аффиксов, в котором заложены по возможности все морфологические варианты лексем основного словаря, выявляет орфографические ошибки, позволяя загружать на сайт Национального корпуса удмуртского языка максимально выверенные тексты.