BSc: AppliedStatisticsInDataAnalysis
Прикладная статистика в анализе данных
- Квалификация выпускника: бакалавр
- Направление подготовки: 09.03.01 - “Информатика и вычислительная техника”
- Направленность (профиль) образовательной программы: Математические основы ИИ
- Программу разработал(а): Иванов Владимир Владимирович
1. Краткая характеристика дисциплины
Изучение дисциплины обеспечивает формирование и развитие компетенций обучающихся в области методов математической и прикладной статистики, их применения для решения различных прикладных задач в рамках профессиональной деятельности. В ходе освоения дисциплины обучающиеся рассматривают параметрические и непараметрические методы статистики, методы проверки статистических гипотез, бутстреп, выборочные методы, алгоритмы многоруких бандитов. Отдельно внимание уделяется связям статистических методов и алгоритмов машинного обучения. Курс охватывает методы, применимые в широком спектре контекстов, включая непараметрическую статистику и методы вероятностного моделирования. Этот курс предоставляет слушателям возможность изучить помимо классических тем, включающих случайные величины, вероятность и распределения; соответствующие вероятностные неравенства; случайные векторы, маргинальные и совместные распределения; последовательности случайных величин, также темы, включающие цепи Маркова; методы одномерного и многомерного моделирования; связи статистики с методами анализа данных и машинного обучения.
2. Перечень планируемых результатов обучения
- Целью освоения дисциплины является выработка у студентов понимания:
- принципов анализа данных на основе аппарата теории вероятностей и математической статистики,
- теоретических знаний о методах прикладной статистики и области их применимости,
- типичных ошибок применения статистических методов.
- Задачами дисциплины являются:
- изучение математических основ анализа данных на основе статистики,
- изучение элементов статистического подхода к машинному обучению,
- изучение различий между параметрическими и непараметрическими методами.
Общая характеристика результата обучения по дисциплине
- Знания: сформированы следующие систематические знания
- Методы оценки: точечные оценки, метод максимального правдоподобия
- Доверительный интервал, p-значение, мощность теста
- Непараметрические методы статистики
- Методы сэмплирования (для создания выборки). Выборка по важности, выборка на основе отклонения. Алгоритм Метрополиса-Гастингса.
- Марковские цепи, стационарное распределение. MCMC
- Умения:: сформированы умения в области решения прикладных задач методами статистики:
- корректное применение статистических тестов для анализа данных и получения статистически значимых выводов
- получение точечных оценок параметров на основе метода максимального правдоподобия
- применение методов байесовской статистики для оценки апостериорного распределения параметров
- Навыки (владения):
- инструментами статистического моделирования
- распознавание ситуаций, релевантных для применения того или иного теста
3. Структура и содержание дисциплины
№ п/п |
Наименование раздела дисциплины |
Содержание дисциплины по темам |
1. | - - - - | |
2. | - - - - |
4. Методические и оценочные материалы
Задания для практических занятий:
№ п/п |
Наименование раздела дисциплины (модуля) |
Перечень рассматриваемых тем (вопросов) |
1. | Введение. Обзор курса и связи с курсом “Теория вероятностей” | Обзор теории вероятностей. Случайные величины. Функция плотности. Матожидание. Условное матожидание. Распределения. Экспоненциальное семейство.
Распределение данных, генеральная совокупность и выборка. Статистика. Неравенства Маркова, Чебышева. |
2. | Статистический вывод | Точечные и интервальные оценки. Свойства оценок. Метод максимального правдоподобия.
Тестирование статистических гипотез. Уровень значимости, p-значение. Примеры: t-тест, z-тест. Проблема множественных сравнений, поправка Бонферрони Дисперсионный анализ. Критерий Хи-квадрат. Тест на перестановку |
3. | Непараметрические методы статистики | Эмпирическая функция распределения. DKW-неравенство. Непараметрические критерии (Уилкоксона, Кускала-Уоллиса, Колмогорова-Смирнова)
Ресемплинг. Бутстреп (Bootstrap) и беггинг (bagging). Гистограмма. Ядерная оценка плотности. Сглаживание
|
4. | Приложения: Элементы статистики в машинном обучении | Минимизация эмпирического риска. Регуляризация. Регрессия. Классификация. Байесовский классификатор. Метод ближайших соседей. Линейный дискриминант Фишера.
|
5. | Байесовский подход в статистике. Выборочные методы. Методы Монте-Карло по схеме марковской цепи (MCMC). | Байесовский вывод в статистике. Примеры. Приложения:
Методы Монте-Карло. Алгоритм Метрополиса-Гастингса. Алгоритмы многоруких бандитов: эпсилон-жадный, UCB (неравенство Хёффдинга). Сэмплирование по Томпсону.
|
Текущий контроль успеваемости обучающихся по дисциплине:
№ п/п |
Наименование раздела дисциплины |
Форма текущего контроля |
Материалы текущего контроля |
Контрольные вопросы для подготовки к промежуточной аттестации:
№ п/п |
Наименование раздела дисциплины |
Вопросы |
Вопросы/Задания к промежуточной аттестации в устной/письменной форме:
1.
2.
3.
...
48.
49.
50.
...
Перечень учебно-методического обеспечения дисциплины
Список основной литературы:
Список дополнительной литературы:
Методические указания для обучающихся по освоению дисциплины
Вид учебных занятий/деятельности |
Деятельность обучающегося |
Методы и технологии обучения, способствующие формированию компетенции
Методы и технологии обучения, способствующие формированию компетенции |