Аннотация:В данном исследовании предложен метод определения источника информации. Он основан на распределении простых сигнатур. В работе выделяется порядка 30 сигнатур, описывающих
документ. Классификатор, используемый в данной работе, является модификацией метода Роккио.
При тестировании было получено, что коллекции "Аргументов и Фактов" и "Независимой
газеты", а также коллекции "Известий" и "Комсомольской правды" схожи между собой с точки зрения предложенных сигнатур. Поэтому было принято решение об их объединении. В этом случае качество определения источников возростает.
Также стоит отметить, что для коллекций Нормативных актов и газеты "Ведомости" метрики
качества принимают высокие значения.
Было проведено исследование зависимости качества определения источников от величины
обучающей коллекции. В нем получено, что при увеличении обучающего множества документов
растут результаты качества определения источников информации.