Аннотация:Обсуждается поиск математических статей в сети интернет и связанные с этим
вопросы. Основные проблемы поиска заключаются
в особенностях формирования запроса и наличии информационного шума.
При использовании формул в поисковом запросе возникают дополнительные
трудности и дополнительный информационный шум, хотя целью является
совсем другое - уточнение запроса для получения пертинентной информации.
Трудности вызваны тем, что использовать символьную нотацию в поисковом
запросе, например, ТеХ-нотацию, готовы далеко не все, а публикации часто представлены в
pdf-формате
. Информационный шум возникает, как следствие поиска формул с точностью до аналогий.
Проблемы усугубляются также, если формула не имеет общепризнанного названия, обозначения, в отличие,
например, от таких, как формула Даламбера, уравнение Трикоми и др.
Существует еще одно обстоятельство, которое недостаточно обсуждается, а именно, довольно сложный механизм пополнения инфор мационных ресурсов формулами, которые,
могут и должны использоваться в поисковом образе. На примере тезауруса по предметной области "смешанные задачи математической
физики" предлагается вариант использования формул для поиска математических статей.
Рассматривается версия работы осведомленного в предметной области пользователя с математическими текстами публикации
выполненной с помощью ТеХ-нотации.Естественный механизм разметки документов задается при наличии ключевых слов в пристатейных вторичных
документах. В противном случае, используя частотный анализ, составляется локальный тезаурус или словарь для статьи. Статья словаря в таком виде
содержит все поля для идентификации соответствующих формул в тексте.