BSc: IntroductionToComputerVision
Компьютерное зрение и обработка видео
- Квалификация выпускника: бакалавр
- Направление подготовки: 09.03.01 - “Информатика и вычислительная техника”
- Направленность (профиль) образовательной программы: Математические основы ИИ
- Программу разработал(а): Д.С. Ватолин
1. Краткая характеристика дисциплины
- Изучение дисциплины обеспечивает формирование и развитие компетенций обучающихся в области компьютерного зрения и обработки видео, их применение для решения различных прикладных задач в рамках профессиональной деятельности. В ходе освоения дисциплины обучающиеся рассматривают основы и продвинутые методы компьютерного зрения и обработки видео: применение сверточных фильтров в задачах обнаружения границ, сжатие видео, основы 4D-видео, реконструкция 3D-сцен, задачи трекинга и предсказания областей внимания (салиентных областей), а также состязательные атаки на метрики качества изображений/видео и методы защиты от них.
2. Перечень планируемых результатов обучения
- Целью освоения дисциплины является формирование у студентов глубоких знаний и практических навыков в области анализа, обработки и интерпретации изображений и видео с применением методов машинного и глубокого обучения. Помимо теоретических аспектов, курс акцентирует внимание на разработке и применении изученных алгоритмов с использованием современных программных инструментов и библиотек в практических заданиях, что позволяет студентам применить полученные знания на практике и получить опыт в решении актуальных задач в области компьютерного зрения и обработки видео.
- Задачами дисциплины являются:
- освоение принципов и практик компьютерного зрения и обработки изображений и видео с использованием классических алгоритмов, машинного и глубокого обучения;
- изучение математических основ наиболее важных алгоритмов компьютерного зрения;
- изучение областей и условий применимости алгоритмов компьютерного зрения и обработки видео;
- применение изученных алгоритмов в практическом решении задач компьютерного зрения и обработки видео.
Общая характеристика результата обучения по дисциплине
- Знания: обучающийся получил систематические знания в следующих областях:
- Основы компьютерного зрения и обработки изображений: понимание принципов работы с изображениями и видео, включая их сжатие, восстановление, классификацию и сегментацию.
- Методы машинного обучения и глубокого обучения: знание алгоритмов и моделей, применяемых для распознавания образов, включая свёрточные нейронные сети.
- Алгоритмы детекции границ и объектов: понимание методов поиска границ, линий и объектов на изображениях, включая преобразование Хафа и метод RANSAC.
- Методы калибровки камеры, перспективные преобразования изображений.
- Принципы создания панорам и 3D-реконструкции: освоение методов сшивки изображений (стичинг) и построения трехмерных моделей сцен.
- Методы (метрики) оценки качества изображений и видео. Область их применения, методы состязательных атак на метрики качества и методы защиты от атак.
- Концепция карты внимания (салиентности) в контексте визуального восприятия и обработки изображений.
- Основы 4D видео.
- Теоретические основы задач классификации и детекции, принципы работы Vision Transformer (ViT) и DETR (Detection Transformer).
- Умения: обучающийся развил умения в следующих направлениях:
- Применение алгоритмов и техник обработки изображений для решения конкретных задач компьютерного зрения с использованием Python.
- Выбор корректного алгоритма компьютерного зрения для решения рассмотренных задач компьютерного зрения.
- Использование методов машинного и глубокого обучения для распознавания образов, включая настройку и обучение нейросетей.
- Реализация алгоритмов детекции границ и объектов для извлечения полезной информации из изображений.
- Осуществление процесса калибровки камеры и коррекции дисторсии изображений.
- Создание панорам и выполнение 3D-реконструкции сцен на основе набора изображений.
- Реализация алгоритмов плотной 3D реконструкции и методов Structure from Motion (SfM).
- Анализ и применение стратегий для защиты от атак на метрики качества изображений и видео.
- Разработка и реализация алгоритмов трекинга и предсказания движения объектов.
- Использование техник выделения салиентных областей на изображениях для улучшения анализа и обработки.
- Применение Vision Transformer и DETR для решения задач классификации и детекции объектов.
- Навыки (владения): обучающийся овладел следующими навыками:
- Программирование на Python для реализации алгоритмов компьютерного зрения и обработки изображений.
- Работа с библиотекой OpenCV и другими инструментами для анализа и обработки изображений и видео.
- Применение предварительно обученных моделей глубокого обучения для распознавания лиц, текста и объектов на изображениях.
3. Структура и содержание дисциплины
№ п/п |
Наименование раздела дисциплины |
Содержание дисциплины по темам |
1. | Введение в компьютерное зрение |
|
2. | Свертки, алгоритмы детекции границ |
|
3. | Нейросетевая обработка видео |
|
4. | Методы сжатия данных |
|
5. | Введение в реконструкцию 3D-сцен |
|
6. | Реконструкция 3D-сцены |
|
7. | Атаки на методы оценки визуального качества изображений/видео |
|
8. | Методы защиты от атак на методы оценки визуального качества изображений/видео | |
9. | Задача трекинга, предсказание движения |
|
10. | 4D-видео | |
11. | Карты внимания (салиентность) |
|
12. | Архитектура трансформера в задачах компьютерного зрения. ViT и DETR |
|
13. | Компьютерное зрение в автономном вождении | |
14. | Мультимодальные модели в компьютерном зрении |
|
4. Методические и оценочные материалы
Задания для практических занятий:
№ п/п |
Наименование раздела дисциплины (модуля) |
Перечень рассматриваемых тем (вопросов) |
1. | Свертки, алгоритмы детекции границ |
Имплементации свертки с разными паддингами (same, no padding) |
2. | Нейросетевая обработка видео |
Реализация RAW Imaging Pipeline |
3. | Методы сжатия данных |
Реализация операций изменения размера с помощью разных python библиотек (проблемы антиалиасинга) |
4. | Введение в реконструкцию 3D-сцен |
Реализация фильтра Кэнни |
5. | Реконструкция 3D-сцены |
Реализация перспективных искажений |
6. | Атаки на методы оценки визуального качества изображений/видео |
Реализация нескольких методов атак на методы оценки визуального качества изображений/видео
|
4. | Введение в реконструкцию 3D-сцен |
Реализация фильтра Кэнни |
7. | Методы защиты от атак на методы оценки визуального качества изображений/видео |
Подсчет корреляции метрики на чистых данных
Реализация состязательного обучения метрики |
8. | Задача трекинга, предсказание движения |
Изучение примеров использования обученной модели DETR |
9. | Карты внимания (салиентность) |
Реализация обучения простой модели предсказания карт внимания |
10. | Архитектура трансформера в задачах компьютерного зрения. ViT и DETR |
Реализация простого пайплайна детекции и нахождения объектов |
Текущий контроль успеваемости обучающихся по дисциплине:
№ п/п |
Наименование раздела дисциплины | Форма текущего контроля | Материалы текущего контроля |
1. | Нейросетевая обработка видео | Проверка выполнения домашних заданий |
Практическое задание: |
2. | Введение в реконструкцию 3D-сцен | Проверка выполнения домашних заданий |
Практическое задание: |
3. | Атаки на методы оценки визуального качества изображений/видео | Проверка выполнения домашних заданий |
Практическое задание:
|
4. | Методы защиты от атак на методы оценки визуального качества изображений/видео | Проверка выполнения домашних заданий |
Практическое задание: |
5. | Карты внимания (салиентность) | Проверка выполнения домашних заданий |
Практическое задание: |
6. | Архитектура трансформера в задачах компьютерного зрения. ViT и DETR | Проверка выполнения домашних заданий |
Практическое задание: |
Контрольные вопросы для подготовки к промежуточной аттестации:
Промежуточная аттестация проводится на основе рейтинга, сформированного по результатам текущей аттестации в течение семестра.
Перечень учебно-методического обеспечения дисциплины
Список основной литературы:
- Computer Vision: Algorithms and Applications, 2nd ed. Richard Szeliski, The University of Washington.
- Gonzalez and. Richard E. Woods' Digital Image Processing, Fourth Edition
- Carion, Nicolas, et al. "End-to-end object detection with transformers." European conference on computer vision. Cham: Springer International Publishing, 2020.
- Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020).
Список дополнительной литературы:
- An Introduction to 3D Computer Vision Techniques and Algorithms Boguslaw Cyganek and J. Paul Siebert
- Computational Photography Mastering New Techniques for Lenses, Lighting, and Sensors Jack Tumblin
- Ватолин, Д. С. Методы сжатия изображений : учебное пособие / Д. С. Ватолин. — 2-е изд. — Москва : ИНТУИТ, 2016. — 196 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/100646
Методические указания для обучающихся по освоению дисциплины
Вид учебных занятий/деятельности |
Деятельность обучающегося |
Лекция | Написание конспекта лекций: кратко, схематично, последовательно фиксировать основные положения лекции, выводы, формулировки, обобщения; помечать важные мысли, выделять ключевые слова, термины. Обозначить вопросы, термины или другой материал, который вызывает трудности, пометить и попытаться найти ответ в рекомендуемой литературе. Если самостоятельно не удается разобраться в материале, необходимо сформулировать вопрос и задать преподавателю на консультации, во время семинарского (практического) занятия. |
Практическое (семинарское) занятие | При подготовке к семинарскому (практическому) занятию необходимо проработать материалы лекций, основной и дополнительной литературы по заданной теме. На основании обработанной информации постараться сформировать собственное мнение по выносимой на обсуждение тематике. Обосновать его аргументами, сформировать список источников, подкрепляющих его. Во время семинарского (практического) занятия активно участвовать в обсуждении вопросов, высказывать аргументированную точку зрения на проблемные вопросы. Приводить примеры из источниковой базы и научной и/или исследовательской литературы. |
Самостоятельная работа | Самостоятельная работа состоит из следующих частей: 1) чтение учебной, справочной, научной литературы; 2) повторение материала лекций; 3) составление планов устных выступлений; 4) подготовка видеопрезентации. При чтении учебной литературы нужно разграничивать для себя материал на отдельные проблемы, концепции, идеи. Учебную литературу можно найти в электронных библиотечных системах, на которые подписан АНО Университет Иннополис. |
Разработка отдельных частей кода | Разработать часть кода, исходя из поставленной задачи и рекомендаций преподавателя. При выполнении работы рекомендуется обращаться к материалам лекций и семинарских (практических) занятий. Если возникают затруднения, необходимо проконсультироваться с преподавателем. |
Выполнение домашних заданий и групповых проектов | Для выполнения домашних заданий и групповых проектов необходимо получить формулировку задания от преподавателя и убедиться в понимании задания. При выполнение домашних заданий и групповых проектов необходимо проработать материалы лекций, основной и дополнительной литературы по заданной теме. |
Методы и технологии обучения, способствующие формированию компетенции
Методы и технологии обучения, способствующие формированию компетенции |
Информационно-коммуникационная технология, проектная технология, технология проблемного обучения, традиционные технологии, модульные технологии, технология интегрированного обучения |