Аннотация:Качество результатов современных языковых моделей неотъемлемо связано с объемом данных, накоторых эта модель будет обучена. Последние громкие расследования вокруг компаний в области искусственного интеллекта были как раз связаны с неправомерным использованием информации, которая была получена в сети интернет. Другой стороной борьбы за использование данных о пользователях является негласное расширение пользовательских соглашений, где компании разрешаетсяиспользовать полученную информацию для обучения своих моделей. Данная работа посвящена анализу современных проблем, связанных с извлечением тренировочных данных из больших языковых моделей (LLM), таких как семейства GPT и Llama. Использование большого количества неструктурированных данных для обучения современных моделей делает эти модели привлекательными объектами для атак, направленных на получение доступа к этим данным или их характеристикам.В статье освещается таксономия атак, направленных на извлечение тренировочных данных и описываются последствия, которые могут возникнуть от неправомерного использования языковых моделей. В результате исследования было показано, что без должной защиты тренировочные данные могут быть использованы злоумышленниками для восстановления конфиденциальной информации, которая в свою очередь ставит под угрозу не только пользователей,но и репутацию организаций