Методы и средства повышения качества данных в Интеллектуальной Системе Тематического Исследования НАучно-технической информации (ИСТИНА)тезисы доклада

Работа с тезисами доклада


[1] Методы и средства повышения качества данных в Интеллектуальной Системе Тематического Исследования НАучно-технической информации (ИСТИНА) / Д. Д. Голомазов, С. А. Афонин, А. С. Козицын, Г. М. Ганкин // Ломоносовские чтения. Тезисы докладов научной конференции. Секция механики. Апрель 2013. — Издательство Московского университета, 2013. Система ИСТИНА предназначена для сбора, обработки, хранения, анализа и выдачи по запросу информации о результатах научной и педагогической деятельности сотрудников научных и образовательных учреждений. Важной характеристикой такой системы является качество данных, под которым в настоящем докладе понимается их точность и полнота. Точность характеризуется такими показателями, как корректность информации и количество дублирующих данных. Доклад посвящен методам и средствам повышения точности информации, которые разрабатываются и используются в системе ИСТИНА. Для эффективного повышения точности информации необходимо рассмотреть следующие вопросы. Во-первых, нужно классифицировать некорректные и дублирующие данные по категориям для облегчения последующего анализа. Во-вторых, требуется идентифицировать нежелательные ситуации, которые приводят к возникновению таких данных в системе. Таким образом предлагается сфокусировать усилия не только на исправлении ошибок, но и на причинах их возникновения. Результаты анализа информации из хранилища экземпляра системы, который используется в Московском университете, показывают, что во многих случаях некорректные или дублирующие данные возникают из-за недостатков интерфейса взаимодействия пользователя с системой. Во-третьих, следует разработать механизмы, которые предотвращают возникновение таких нежелательных ситуаций. В-четвертых, необходимо создать средства исправления некорректных и дублирующих данных. В-пятых, требуется сформировать политику разграничения доступа к функциям системы, позволяющим модифицировать существующую информацию. Например, очевидно, что нельзя давать право редактировать и удалять любую статью любому пользователю. Наконец, в-шестых, следует разработать механизм запуска операций, повышающих качество данных, то есть определить, куда и каким образом поступает информация о некорректных или дублирующих сведениях, и кто осуществляет их проверку и исправление. Основные идеи, связанные с механизмом запуска таких операций состоят в следующем. Во-первых, предлагается дать наибольшие возможности по исправлению данных всем пользователям, при этом не подвергая информацию других пользователей риску быть испорченной. Во-вторых, следует создать особую группу пользователей (“ответственные сотрудники”), которые, будучи прикрепленными к заданной вершине иерархии подразделений организации, получают повышенные привилегии по редактированию данных сотрудников, принадлежащих подразделению из поддерева этой вершины. Среди ситуаций, вследствие которых уменьшается точность информации в системе, выделяются следующие: ошибки в указанных пользователем сведениях о результате научной деятельности при добавлении; неправильное соотнесение (привязка) автора работы к сотруднику в базе данных системы; возникновение в хранилище дубликатов объектов различных типов. Рассматриваемые в докладе вопросы иллюстрируются статистическими данными по экземпляру системы, внедренному в Московском университете с привлечением более 7 тысяч сотрудников.

Публикация в формате сохранить в файл сохранить в файл сохранить в файл сохранить в файл сохранить в файл сохранить в файл скрыть