Аннотация:В работе предложен метод семантической сегментации минералов на изображениях геологических аншлифов, основанный на текстовых описаниях. Стандартные подходы к сегментации с открытым словарём (Open-Vocabulary Segmentation), использующие модели типа CLIP, показывают низкую эффективность на узкоспециализированных данных из-за того, что обучающие выборки общего назначения, на которых они обучались, не содержат достаточного количества примеров из целевой предметной области. Для решения этой проблемы предложен двухэтапный подход: сначала модель CLIP дообучается на целевом домене с использованием набора пар «изображение-текст», собранных с ресурса Mindat.org. Затем дообученная модель интегрируется в качестве энкодера признаков в фреймворк Trident, не требующий дополнительного обучения. Эксперименты показывают, что предложенный подход значительно улучшает качество сегментации по сравнению с использованием базовой модели CLIP. Метрика F1 для классификации минералов на тестовых изображениях выросла с 0.16 до 43, а индекс Жаккара – с 0.10 до 0.29.Ключевые слова: семантическая сегментация, сегментации с открытым словарём, геологические аншлифы, CLIP, глубокое обучение, компьютерное зрение.