Извлечение тренировочных данных: Риски и решения в контексте безопасности LLM

Герасименко, Д.В.; Намиот, Д.Е.

Авторы: Герасименко Д.В., Намиот Д.Е.
Журнал: International Journal of Open Information Technologies
Том: 12
Номер: 11
Год издания: 2024
Издательство: Лаборатория Открытых Информационных Технологий факультета ВМК МГУ им. М.В. Ломоносова
Местоположение издательства: Москва
Первая страница: 9
Последняя страница: 19
Аннотация: Качество результатов современных языковых моделей неотъемлемо связано с объемом данных, накоторых эта модель будет обучена. Последние громкие расследования вокруг компаний в области искусственного интеллекта были как раз связаны с неправомерным использованием информации, которая была получена в сети интернет. Другой стороной борьбы за использование данных о пользователях является негласное расширение пользовательских соглашений, где компании разрешаетсяиспользовать полученную информацию для обучения своих моделей. Данная работа посвящена анализу современных проблем, связанных с извлечением тренировочных данных из больших языковых моделей (LLM), таких как семейства GPT и Llama. Использование большого количества неструктурированных данных для обучения современных моделей делает эти модели привлекательными объектами для атак, направленных на получение доступа к этим данным или их характеристикам.В статье освещается таксономия атак, направленных на извлечение тренировочных данных и описываются последствия, которые могут возникнуть от неправомерного использования языковых моделей. В результате исследования было показано, что без должной защиты тренировочные данные могут быть использованы злоумышленниками для восстановления конфиденциальной информации, которая в свою очередь ставит под угрозу не только пользователей,но и репутацию организаций
Добавил в систему: Намиот Дмитрий Евгеньевич

	ИСТИНА	Войти в систему Регистрация
	Интеллектуальная Система Тематического Исследования НАукометрических данных
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

Интеллектуальная Система Тематического Исследования НАукометрических данных

Извлечение тренировочных данных: Риски и решения в контексте безопасности LLMстатья