BSc: AppliedStatisticsInDataAnalysis

From IU
Jump to navigation Jump to search

Прикладная статистика в анализе данных

Квалификация выпускника: бакалавр
Направление подготовки: 09.03.01 - “Информатика и вычислительная техника”
Направленность (профиль) образовательной программы: Математические основы ИИ
Программу разработал(а): Иванов Владимир Владимирович

1. Краткая характеристика дисциплины

Изучение дисциплины обеспечивает формирование и развитие компетенций обучающихся в области методов математической и прикладной статистики, их применения для решения различных прикладных задач в рамках профессиональной деятельности. В ходе освоения дисциплины обучающиеся рассматривают параметрические и непараметрические методы статистики, методы проверки статистических гипотез, бутстреп, выборочные методы, алгоритмы многоруких бандитов. Отдельно внимание уделяется связям статистических методов и алгоритмов машинного обучения. Курс охватывает методы, применимые в широком спектре контекстов, включая непараметрическую статистику и методы вероятностного моделирования. Этот курс предоставляет слушателям возможность изучить помимо классических тем, включающих случайные величины, вероятность и распределения; соответствующие вероятностные неравенства; случайные векторы, маргинальные и совместные распределения; последовательности случайных величин, также темы, включающие цепи Маркова; методы одномерного и многомерного моделирования; связи статистики с методами анализа данных и машинного обучения.


2. Перечень планируемых результатов обучения

Целью освоения дисциплины является выработка у студентов понимания:
  • принципов анализа данных на основе аппарата теории вероятностей и математической статистики,
  • теоретических знаний о методах прикладной статистики и области их применимости,
  • типичных ошибок применения статистических методов.


Задачами дисциплины являются:
  • изучение математических основ анализа данных на основе статистики,
  • изучение элементов статистического подхода к машинному обучению,
  • изучение различий между параметрическими и непараметрическими методами.


Общая характеристика результата обучения по дисциплине

Знания: сформированы следующие систематические знания
  • Методы оценки: точечные оценки, метод максимального правдоподобия
  • Доверительный интервал, p-значение, мощность теста
  • Непараметрические методы статистики
  • Методы сэмплирования (для создания выборки). Выборка по важности, выборка на основе отклонения. Алгоритм Метрополиса-Гастингса.
  • Марковские цепи, стационарное распределение. MCMC


Умения:: сформированы умения в области решения прикладных задач методами статистики:
  • корректное применение статистических тестов для анализа данных и получения статистически значимых выводов
  • получение точечных оценок параметров на основе метода максимального правдоподобия
  • применение методов байесовской статистики для оценки апостериорного распределения параметров


Навыки (владения):
  • инструментами статистического моделирования
  • распознавание ситуаций, релевантных для применения того или иного теста

3. Структура и содержание дисциплины


п/п
Наименование раздела
дисциплины
Содержание дисциплины по темам
1.      -
     -
     -
     -
2.      -
     -
     -
     -

4. Методические и оценочные материалы

Задания для практических занятий:


п/п
Наименование раздела
дисциплины (модуля)
Перечень рассматриваемых тем (вопросов)
1. Введение. Обзор курса и связи с курсом “Теория вероятностей” Обзор теории вероятностей. Случайные величины. Функция плотности. Матожидание. Условное матожидание. Распределения. Экспоненциальное семейство.

Распределение данных, генеральная совокупность и выборка. Статистика. Неравенства Маркова, Чебышева.

2. Статистический вывод Точечные и интервальные оценки. Свойства оценок. Метод максимального правдоподобия.

Тестирование статистических гипотез. Уровень значимости, p-значение. Примеры: t-тест, z-тест. Проблема множественных сравнений, поправка Бонферрони Дисперсионный анализ. Критерий Хи-квадрат. Тест на перестановку

3. Непараметрические методы статистики Эмпирическая функция распределения. DKW-неравенство. Непараметрические критерии (Уилкоксона, Кускала-Уоллиса, Колмогорова-Смирнова)

Ресемплинг. Бутстреп (Bootstrap) и беггинг (bagging). Гистограмма. Ядерная оценка плотности. Сглаживание


4. Приложения: Элементы статистики в машинном обучении Минимизация эмпирического риска. Регуляризация. Регрессия. Классификация. Байесовский классификатор. Метод ближайших соседей. Линейный дискриминант Фишера.


5. Байесовский подход в статистике. Выборочные методы. Методы Монте-Карло по схеме марковской цепи (MCMC). Байесовский вывод в статистике. Примеры. Приложения:

Методы Монте-Карло. Алгоритм Метрополиса-Гастингса. Алгоритмы многоруких бандитов: эпсилон-жадный, UCB (неравенство Хёффдинга). Сэмплирование по Томпсону.


Текущий контроль успеваемости обучающихся по дисциплине:


п/п
Наименование раздела
дисциплины
Форма текущего контроля
Материалы текущего контроля

Контрольные вопросы для подготовки к промежуточной аттестации:


п/п
Наименование
раздела дисциплины
Вопросы

Вопросы/Задания к промежуточной аттестации в устной/письменной форме:

1.
2.
3.
...
48.
49.
50.
...

Перечень учебно-методического обеспечения дисциплины

Список основной литературы:

Список дополнительной литературы:

Методические указания для обучающихся по освоению дисциплины

Вид учебных
занятий/деятельности
Деятельность обучающегося

Методы и технологии обучения, способствующие формированию компетенции

Методы и технологии обучения, способствующие формированию компетенции