BSc: AppliedStatisticsInDataAnalysis

From IU
Jump to navigation Jump to search

Прикладная статистика в анализе данных

Квалификация выпускника: бакалавр
Направление подготовки: 09.03.01 - “Информатика и вычислительная техника”
Направленность (профиль) образовательной программы: Математические основы ИИ
Программу разработал(а): Иванов Владимир Владимирович

1. Краткая характеристика дисциплины

Изучение дисциплины обеспечивает формирование и развитие компетенций обучающихся в области методов математической и прикладной статистики, их применения для решения различных прикладных задач в рамках профессиональной деятельности. В ходе освоения дисциплины обучающиеся рассматривают параметрические и непараметрические методы статистики, методы проверки статистических гипотез, бутстреп, выборочные методы, алгоритмы многоруких бандитов. Отдельно внимание уделяется связям статистических методов и алгоритмов машинного обучения. Курс охватывает методы, применимые в широком спектре контекстов, включая непараметрическую статистику и методы вероятностного моделирования. Этот курс предоставляет слушателям возможность изучить помимо классических тем, включающих случайные величины, вероятность и распределения; соответствующие вероятностные неравенства; случайные векторы, маргинальные и совместные распределения; последовательности случайных величин, также темы, включающие цепи Маркова; методы одномерного и многомерного моделирования; связи статистики с методами анализа данных и машинного обучения.


2. Перечень планируемых результатов обучения

Целью освоения дисциплины является выработка у студентов понимания:
  • принципов анализа данных на основе аппарата теории вероятностей и математической статистики,
  • теоретических знаний о методах прикладной статистики и области их применимости,
  • типичных ошибок применения статистических методов.


Задачами дисциплины являются:
  • изучение математических основ анализа данных на основе статистики,
  • изучение элементов статистического подхода к машинному обучению,
  • изучение различий между параметрическими и непараметрическими методами.


Общая характеристика результата обучения по дисциплине

Знания: сформированы следующие систематические знания
  • Методы оценки: точечные оценки, метод максимального правдоподобия
  • Доверительный интервал, p-значение, мощность теста
  • Непараметрические методы статистики
  • Методы сэмплирования (для создания выборки). Выборка по важности, выборка на основе отклонения. Алгоритм Метрополиса-Гастингса.
  • Марковские цепи, стационарное распределение. MCMC


Умения:: сформированы умения в области решения прикладных задач методами статистики:
  • корректное применение статистических тестов для анализа данных и получения статистически значимых выводов
  • получение точечных оценок параметров на основе метода максимального правдоподобия
  • применение методов байесовской статистики для оценки апостериорного распределения параметров


Навыки (владения):
  • инструментами статистического моделирования
  • распознавание ситуаций, релевантных для применения того или иного теста

3. Структура и содержание дисциплины


п/п
Наименование раздела
дисциплины
Содержание дисциплины по темам
1. Введение. Обзор курса и связи с курсом “Теория вероятностей” Обзор теории вероятностей. Случайные величины. Функция плотности. Матожидание. Условное матожидание. Распределения. Экспоненциальное семейство.

Распределение данных, генеральная совокупность и выборка. Статистика. Неравенства Маркова, Чебышева.

2. Статистический вывод Точечные и интервальные оценки. Свойства оценок. Метод максимального правдоподобия.

Тестирование статистических гипотез. Уровень значимости, p-значение. Примеры: t-тест, z-тест. Проблема множественных сравнений, поправка Бонферрони Дисперсионный анализ. Критерий Хи-квадрат. Тест на перестановку

3. Непараметрические методы статистики Эмпирическая функция распределения. DKW-неравенство. Непараметрические критерии (Уилкоксона, Кускала-Уоллиса, Колмогорова-Смирнова)

Ресемплинг. Бутстреп (Bootstrap) и беггинг (bagging). Гистограмма. Ядерная оценка плотности. Сглаживание


4. Приложения: Элементы статистики в машинном обучении Минимизация эмпирического риска. Регуляризация. Регрессия. Классификация. Байесовский классификатор. Метод ближайших соседей. Линейный дискриминант Фишера.


5. Байесовский подход в статистике. Выборочные методы. Методы Монте-Карло по схеме марковской цепи (MCMC). Байесовский вывод в статистике. Примеры. Приложения:

Методы Монте-Карло. Алгоритм Метрополиса-Гастингса. Алгоритмы многоруких бандитов: эпсилон-жадный, UCB (неравенство Хёффдинга). Сэмплирование по Томпсону.

4. Методические и оценочные материалы

Задания для практических занятий:


п/п
Наименование раздела
дисциплины (модуля)
Перечень рассматриваемых тем (вопросов)
1. Введение. Обзор курса и связи с курсом “Теория вероятностей” 1. Докажите Неравенство Маркова. Для любой неотрицательной случайной величины с конечным средним и :

2. Докажите Неравенство Чебышёва. Для случайной величины с конечной дисперсией .

Найдите среднее и дисперсию, если они существуют, для каждого из следующих распределений.

  • , , ноль в других местах;
  • , , ноль в других местах.

\end{itemize}

2. Статистический вывод 1. Пусть представляют собой случайную выборку из распределения с следующей плотностью вероятности:

Найдите оценку максимального правдоподобия для .

2. Отдел по связям с общественностью авиакомпании утверждает, что авиакомпания редко теряет багаж пассажиров. Он также утверждает, что в тех случаях, когда багаж теряется, 90\% его находится и доставляется владельцу в течение 24 часов. Группа потребителей, проведя опрос большого числа авиапутешественников, обнаружила, что только 103 из 122 человек, потерявших багаж на этой авиакомпании, были воссоединены с пропавшими вещами на следующий день. Сомневаетесь ли вы в утверждении авиакомпании? 3. Случайная выборка из пакетов белого чеддерного попкорна в среднем весила унции со стандартным отклонением унции. Проверьте гипотезу о том, что унции, против альтернативной гипотезы унции, на уровне значимости .

3. Непараметрические методы статистики 1. Объясните происхождение теста Колмогорова-Смирнова, его варианты, применение и ограничения.

2. Примените тест Колмогорова-Смирнова для проверки гипотезы.

3. Реализуйте программу, которая будет строить эмпирическую функцию распределения для заданной выборки.

4. Реализуйте методы джекнайфа / бутстрэпа для остатков с нуля.

5. Давайте возьмем данные о всемирном индексе счастья (данные можно найти здесь), собранные в 2015 и 2019 годах, и проверим следующие гипотезы: H0: Центральная тенденция равна H1: Центральная тенденция не равна (двусторонний случай) Используйте нормальную аппроксимацию статистики для теста Вилкоксона.

4. Приложения: Элементы статистики в машинном обучении 1. Продемонстрируйте компромисс между смещением и разбросом, а также недообучение/переобучение с использованием модели регрессии.

2. Примените Линейный Дискриминантный Анализ для классификации.

3. Примените Логистическую регрессию для классификации.

5. Байесовский подход в статистике. Выборочные методы. Методы Монте-Карло по схеме марковской цепи (MCMC). Реализуйте метод важной выборки (метод Монте-Карло для оценки свойств конкретного распределения).

Реализуйте алгоритм оптимизации, называемый Методом Закалки (SA). Он основан на выборке, и процедура оптимизации аналогична алгоритму Метрополиса-Гастингса (MH). Поскольку оптимизация основана на выборке, SA позволяет оптимизировать даже недифференцируемые функции, и поэтому он применим для оптимизации комбинаторных задач.



Текущий контроль успеваемости обучающихся по дисциплине:


п/п
Наименование раздела
дисциплины
Форма текущего контроля
Материалы текущего контроля
1. Введение. Обзор курса и связи с курсом “Теория вероятностей” Проверка разработки отдельных частей кода программного продукта Выполняется реализация частей кода в рамках лабораторной работы.

Примеры лабораторных доступны на github: https://github.com/nomemm/STDS_Course/tree/main/labs

2. Статистический вывод Проверка разработки отдельных частей кода программного продукта Примеры лабораторных доступны на github:

https://github.com/nomemm/STDS_Course/tree/main/labs

3. Непараметрические методы статистики Проверка разработки отдельных частей кода программного продукта Примеры лабораторных доступны на github:

https://github.com/nomemm/STDS_Course/tree/main/labs

4. Приложения: Элементы статистики в машинном обучении Проверка разработки отдельных частей кода программного продукта Выбор и решение кейс-стади: исследование методами статистики и машинного обучения конкретного практического примера. Тематика выбирается студентом и согласуется с преподавателем.

Примеры тем приведены ниже

Тема 1: Цель данного исследования - выявить основные факторы риска в различных классах стран. Путем сравнения этих факторов мы можем объединить страны с аналогичными проблемами. Кроме того, интересно исследовать коррелированные или мультикоррелированные признаки, чтобы лучше понять корень проблемы.

Тема 2: Найдите новую экзопланету, используя метод транзита и откройте данные телескопа через анализ периодограммы. Набор данных содержит 946 книг, полученных путем сканирования книг Amazon, связанных с наукой о данных, статистикой, анализом данных, Python, глубоким обучением и машинным обучением.

Тема 3: Идея этого задания - исследовать различные аспекты тенденций на рынке недвижимости с использованием набора данных о продажах недвижимости за период с 2002 по 2022 год. Набор данных содержит информацию, такую как тип недвижимости (жилой или коммерческий), цены продажи, архитектурные стили, материалы наружных стен и даты продаж, что позволяет нам исследовать вопросы, касающиеся различий в ценах между типами недвижимости, влияния экономических кризисов на различные типы недвижимости и вариаций в ценах продаж на основе архитектурных особенностей.

Тема 4: Виктор Вембаньяма - новичок, выбранный в первом раунде драфта в НБА (Национальная Баскетбольная Ассоциация). Я хочу проанализировать, как его дебютный сезон сравнивается с дебютными сезонами других великих игроков всех времен, и насколько вероятно, что он выиграет награду Лучший защитник года в свой первый сезон.

Тема 5: Идея состоит в том, чтобы понять и выявить различные факторы, которые могут влиять на продажи в магазинах Walmart. Мы хотим исследовать, какие факторы могут способствовать успеху или снижению продаж компании. И, наконец, мы хотим дать рекомендации для будущего развития.

5. Байесовский подход в статистике. Выборочные методы. Методы Монте-Карло по схеме марковской цепи (MCMC). Проверка разработки отдельных частей кода программного продукта Примеры лабораторных доступны на github:

https://github.com/nomemm/STDS_Course/tree/main/labs


Контрольные вопросы для подготовки к промежуточной аттестации:


п/п
Наименование
раздела дисциплины
Вопросы
1. Введение. Обзор курса и связи с курсом “Теория вероятностей” Распределения вероятностей и их применение в статистике: нормальное, биномиальное, равномерное, бета-распределение, t-распределение, хи-квадрат.

Определение статистики. Распределение данных. Доверительный интервал. Примеры описательных статистик (среднее значение выборки, дисперсия выборки).

2. Статистический вывод Тестирование гипотез. Ошибки первого и второго рода
3. Непараметрические методы статистики Тест Крускала-Уоллиса

Эмпирическая функция распределения, критерий Колмогорова-Смирнова

4. Приложения: Элементы статистики в машинном обучении Линейный дискриминант Фишера.

Проблема баланса смещения и дисперсии Функция потерь для регрессии

5. Байесовский подход в статистике. Выборочные методы. Методы Монте-Карло по схеме марковской цепи (MCMC). Методы сэмплирования. Сэмплирование по важности

Марковские цепи. MCMC. Алгоритм Метрополиса-Гастингса

Вопросы/Задания к промежуточной аттестации в устной/письменной форме:

Билет 1
Q1: Методы сэмплирования. Сэмплирование по важности
Q2: Тест Крускала-Уоллиса
Билет 2
Q1: Методы сэмплирования. Сэмплирование на основе отклонения
Q2: Критерий знаковых рангов Уилкоксона
Билет 3
Q1: Методы сэмплирования. Сэмплирование с помощью обратной функции распределения
Q2: z-тест и t-тест
Билет 4
Q1: Марковские цепи. MCMC. Алгоритм Метрополиса (метод случайных блужданий)
Q2: ANOVA и F-тест (Критерий Фишера)
Билет 5
Q1: Марковские цепи. MCMC. Алгоритм Метрополиса-Гастингса
Q2: Критерий Хи-квадрат
Билет 6
Q1: Алгоритмы многоруких бандитов. Эпсилон-жадный метод.
Q2: Центральная предельная теорема (идея доказательства, без вывода). Приложения
Билет 7
Q1: Алгоритмы многоруких бандитов. Сэмплирование по Томпсону
Q2: Тестирование гипотез. p-значение, критический регион.
Билет 8
Q1: Непараметрическая статистика. Эмпирическая функция распределения, неравенство DKW
Q2: Методы оценки. Метод максимального правдоподобия
Билет 9
Q1: Непараметрическая статистика. Эмпирическая функция распределения, критерий Колмогорова-Смирнова
Q2: Тестирование гипотез. Ошибки первого и второго рода
Билет 10
Q1: Бутстрап.
Q2: Байесовская статистика. Априорное распределение, апостериорное распределение, правдоподобие. Примеры и приложения
Билет 11
Q1: Методы сглаживания. Ядерная оценка плотности
Q2: Точечные и интервальные оценки. Свойства оценок. Несмещенные оценки. Примеры
Билет 12
Q1: Распределения вероятностей и их применение в статистике: нормальное, биномиальное, равномерное, бета-распределение, t-распределение, хи-квадрат.
Q2: Определение статистики. Распределение данных. Доверительный интервал. Примеры описательных статистик (среднее значение выборки, дисперсия выборки).


Перечень учебно-методического обеспечения дисциплины

Список основной литературы:

1. Бишоп К. М. Распознавание образов и машинное обучение. - “Вильямс”, 2020. - 960 с.

2. Хасти Т., Тибширани Р., Фридман Д. Основы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование. - “Вильямс”, 2020. - 768 с.

3. Холлендер М., Вульф Д.А. Непараметрические методы статистики. - М.: Финансы и статистика, 1983. - 518 с.

4. G. Casella, R. L. Berger. Statistical Inference. Thomson Press. 2006

5. Steven M. Kay. Fundamentals of Statistical Signal Processing: Estimation Theory (v. 1). Prentice Hall. 1993

Список дополнительной литературы:

1. Murphy K.P. Machine Learning: A Probabilistic Perspective. Massachusetts Institute of Technology, 2012. — 1067 p.

2. Bishop Christopher. Pattern Recognition and Machine Learning. Springer, 2006. — 738 p.

3. Hastie, T. Tibshirani, R. and Friedman, J. (2008) The Elements of Statistical Learning 2ed. Springer

4. S. Hojsgaard, D. Edwards, S. Lauritzen. Graphical Models with R. Springer. 2012

5. Efron, R. J. Tibshirani. An introduction to the bootstrap. Springer. 1993

6. M. Ross. Introduction to Statistics. Prentice Hall. 1989

Методические указания для обучающихся по освоению дисциплины

Вид учебных
занятий/деятельности
Деятельность обучающегося
Лекция Написание конспекта лекций: кратко, схематично, последовательно фиксировать основные положения лекции, выводы, формулировки, обобщения; помечать важные мысли, выделять ключевые слова, термины. Обозначить вопросы, термины или другой материал, который вызывает трудности, пометить и попытаться найти ответ в рекомендуемой литературе. Если самостоятельно не удается разобраться в материале, необходимо сформулировать вопрос и задать преподавателю на консультации, во время семинарского (практического) занятия.
Практическое (семинарское) занятие При подготовке к семинарскому (практическому) занятию необходимо проработать материалы лекций, основной и дополнительной литературы по заданной теме. На основании обработанной информации постараться сформировать собственное мнение по выносимой на обсуждение тематике. Обосновать его аргументами, сформировать список источников, подкрепляющих его.

Во время семинарского (практического) занятия активно участвовать в обсуждении вопросов, высказывать аргументированную точку зрения на проблемные вопросы. Приводить примеры из источниковой базы и научной и/или исследовательской литературы.

Устный/письменный опрос Отвечать, максимально полно, логично и структурировано, на поставленный вопрос. Основная цель – показать всю глубину знаний по конкретной теме или ее части.
Реферат Поиск источников и литературы, составление библиографии. При написании реферата рекомендуется использовать разнообразные источники, монографии и статьи из научных журналов, позволяющие глубже разобраться в различных точках зрения на заданную тему. Изучение литературы следует начинать с наиболее общих трудов, затем следует переходить к освоению специализированных исследований по выбранной теме. Могут быть использованы ресурсы сети «Интернет» с соответствующими ссылками на использованные сайты.

Если тема содержит проблемный вопрос, следует сформулировать разные точки зрения на него. Рекомендуется в выводах указать свое собственное аргументированное мнение по данной проблеме. Подготовить презентацию для защиты реферата.

Эссе Написание прозаического сочинения небольшого объема и свободной композиции, выражающего индивидуальные впечатления и соображения по конкретному поводу или вопросу и заведомо не претендующего на определяющую или исчерпывающую трактовку предмета. При работе над эссе следует четко и грамотно формулировать мысли, структурировать информацию, использовать основные понятия, выделять причинно-следственные связи. Как правило эссе имеет следующую структуру: вступление, тезис и аргументация его, заключение. В качестве аргументов могут выступать исторические факты, явления общественной жизни, события, жизненные ситуации и жизненный опыт, научные доказательства, ссылки на мнение ученых и др.
Подготовка к промежуточной аттестации При подготовке к промежуточной аттестации необходимо проработать вопросы по темам, которые рекомендуются для самостоятельной подготовки. При возникновении затруднений с ответами следует ориентироваться на конспекты лекций, семинаров, рекомендуемую литературу, материалы электронных и информационных справочных ресурсов, статей.

Если тема вызывает затруднение, четко сформулировать проблемный вопрос и задать его преподавателю.

Практические (лабораторные) занятия Практические занятия предназначены прежде всего для разбора отдельных сложных положений, тренировки аналитических навыков, а также для развития коммуникационных навыков. Поэтому на практических занятиях необходимо участвовать в тех формах обсуждения материала, которые предлагает преподаватель: отвечать на вопросы преподавателя, дополнять ответы других студентов, приводить примеры, задавать вопросы другим выступающим, обсуждать вопросы и выполнять задания в группах. Работа на практических занятиях подразумевает домашнюю подготовку и активную умственную работу на самом занятии. Работа на практических занятиях в форме устного опроса заключается прежде всего в тренировке навыков применять теоретические положения к самому разнообразному материалу. В ходе практических занятий студенты работают в группах для обсуждения предлагаемых вопросов.
Самостоятельная работа Самостоятельная работа состоит из следующих частей: 1) чтение учебной, справочной, научной литературы; 2) повторение материала лекций; 3) составление планов устных выступлений; 4) подготовка видеопрезентации. При чтении учебной литературы нужно разграничивать для себя материал на отдельные проблемы, концепции, идеи. Учебную литературу можно найти в электронных библиотечных системах, на которые подписан АНО Университет Иннополис.
Видеопрезентация Подготовка видеопрезентаций по курсу. Видеопрезентации могут быть сделаны на любую тему, затронутую в ходе курса. Темы должны быть заранее согласованы с преподавателем. Видеопрезентации продолжительностью около 5 минут (300 секунд) должны быть подготовлены в группах, определяемых преподавателем. Несмотря на то, что это групповая работа, должен явно присутствовать вклад каждого члена группы.
Доклад Публичное, развернутое сообщение по определенной теме или вопросу, основанное на документальных данных. При подготовке доклада рекомендуется использовать разнообразные источники, позволяющие глубже разобраться в теме. Учебную литературу можно найти в электронных библиотечных системах, на которые подписан АНО Университет Иннополис.
Дискуссия Публичное обсуждение спорного вопроса, проблемы. Каждая сторона должна оппонировать мнение собеседника, аргументируя свою позицию.
Контрольная работа При подготовке к контрольной работе необходимо проработать материалы лекций, семинаров, основной и дополнительной литературы по заданной теме.
Тестирование (устное/письменное) При подготовке к тестированию необходимо проработать материалы лекций, семинаров, основной и дополнительной литературы по заданной теме. Основная цель тестирования – показать уровень сформированности знаний по конкретной теме или ее части.
Индивидуальная работа При выполнение индивидуальной работы необходимо взять задание у преподавателя, ознакомиться с требованиями к выполнению работы, изучить поставленную проблему, найти решение проблемы. Если самостоятельно не удается разобраться в материале, необходимо сформулировать вопрос и задать преподавателю на консультации, во время семинарского (практического) занятия. Оформить результаты работы.
Разработка отдельных частей кода Разработать часть кода, исходя из поставленной задачи и рекомендаций преподавателя. При выполнении работы рекомендуется обращаться к материалам лекций и семинарских (практических) занятий. Если возникают затруднения, необходимо проконсультироваться с преподавателем.
Выполнение домашних заданий и групповых проектов Для выполнения домашних заданий и групповых проектов необходимо получить формулировку задания от преподавателя и убедиться в понимании задания. При выполнение домашних заданий и групповых проектов необходимо проработать материалы лекций, основной и дополнительной литературы по заданной теме.


Методы и технологии обучения, способствующие формированию компетенции

Информационно – коммуникационная технология, Педагогика сотрудничества, Традиционные технологии, Модульная технология