Аннотация:В магистерской работе исследовалась проблема фрагментации видео на монтажные планы – наборы последовательных кадров, взятых от момента пуска камеры до ее остановки. Данный процесс является ключевым этапом структурирования видео, результаты которого широко используются в задачах индексирования, поиска, аннотирования видео и др.
В ходе работы были изучены основные аспекты решаемой задачи: разновидности выделяемых из кадров визуальных признаков, особенности сравнения кадров на их основе и определения граничных кадров монтажных планов. С учетом данной информации были проанализированы наиболее известные методы деления видео, базирующиеся на извлечении значений отдельных пикселей изображения в цветовых моделях RGB и HSV, статистическом распределении цвета в кадре, отслеживании границ объектов на соседних кадрах и сравнении дескрипторов ключевых точек изображения (SIFT-признаков). Кроме того, магистрантом были реализованы подходы, использующие сверточные нейронные сети разной архитектуры: AlexNet и VGG-16, в качестве средства извлечения характеристик кадров.
Для тестирования и оценки качества выполнения сегментации видео на монтажные планы с применением упомянутых методов был проведен ряд экспериментов на размеченной вручную коллекции видео из разных категорий, состоящей из 927 монтажных планов. По результатам экспериментов, наилучшим с точки зрения F1-меры оказался метод, основой которого является использование предобученной на наборе данных ImageNet модели VGG-16 с тринадцатью сверточными слоями размерности 3х3.
В состав программной системы, кроме основного модуля фрагментации видео, входят подсистемы анализа частоты смены монтажных планов, влияющей на формирование так называемого клипового мышления, и индексирования появления лиц людей в видео.
Для выявления очередности появления лиц на начальном этапе с помощью средств библиотеки Dlib осуществил распознавание лиц в кадрах. На следующем этапе был проведен трекинг лиц в пределах каждого монтажного плана на основе пересечений обрамляющих прямоугольников с учетом возможных ошибок детектора библиотеки при сильных поворотах головы. В завершении полученные треки были кластеризованы, и в результате для каждого лица были получены номера монтажных планов, соответствующие его появлению в видео.