BSc: MathStatistics
Математическая статистика
- Квалификация выпускника: бакалавр
- Направление подготовки: 09.03.01 - “Информатика и вычислительная техника”
- Направленность (профиль) образовательной программы: Математические основы ИИ
- Программу разработал(а): Двинских Дарина, Пучкин Никита
1. Краткая характеристика дисциплины
Математическая статистика - это раздел математики, отвечающий за математическое моделирования наблюдаемых явлений. Данный курс нацелен на обучение статистическим методам, позволяющим извлечь из данных необходимую информацию (оценить неизвестные параметры распределений или проверить статистические гипотезы), а также понимаю применимости этих методов. В рамках курса “Математическая статистика” слушатели познакомятся с теоретическими основами современной математической статистики ее основными результатами, научатся решать стандартные задачи. Данная дисциплина также представляет собой теоретическую основу для более глубокого понимания дальнейших курсов, например, машинного обучения.
2. Перечень планируемых результатов обучения
- Целью освоения дисциплины является умение анализировать данные: описывать наблюдаемые величины математическими моделями и применять математические методы для их анализа.
- Задачами дисциплины являются:
• научиться строить математические модели для описания случайных явлений
• научиться строить, а также сравнивать, точечные и интервальные оценки
• для неизвестных параметров распределения
• научиться строить байесовские точечные оценки
• научиться строить и проверять статистические гипотезы
• научиться проводить статистические численные эксперименты: реализовывать основные алгоритмы построения оценок и проверки статистических гипотез на языке программирования Python.
Общая характеристика результата обучения по дисциплине
- Знания: сформированы систематические знания о параметрической и непараметрической статистике, основных методов, а также условий их применимости.
- Умения: сформированы умения оценивать как неизвестные параметры распределения, так и плотность (в непараметрической статистике), проверять статистические гипотезы.
- Навыки (владения): сформировано владение навыком построения математических моделей для описания случайных явлений.
3. Структура и содержание дисциплины
№ п/п |
Наименование раздела дисциплины |
Содержание дисциплины по темам |
1. | Основные понятия | Свойства оценок: несмещенность, состоятельность, асимптотическая нормальность. Оценка функции распределения, эмпирическая функция распределения, ее свойства.
Оценка квантилей. Порядковые статистики. Функция распределения и плотность распределения порядковых статистик. Оценка математического ожидания и дисперсии. Выборочные моменты и центральные выборочные моменты. Нормальный случайный вектор, его свойства. Распределения Фишера и Стьюдента. |
3. | Точечное оценивание | Регулярные семейства. Информация Фишера, функция правдоподобия, неравенство Рао-Крамера. Эффективные оценки
Экспоненциальное семейство распределений. Сверхэффективные оценки Вычисление оценок методом максимального правдоподобия. Свойства оценок максимального правдоподобия. М-оценки. |
5. | Интервальное оценивание | Точные доверительные интервалы. Метод центральной статистики.
Асимптотические доверительные интервалы |
6 | Байесовские оценки | Априорное и апостериорное распределения. Сопряженное априорное распределение
Байесовский риск и байесовские оценки. |
7 | Проверка статистических гипотез | Основные понятия статистической проверки гипотез. Простая и сложная гипотезы. Статистический критерий. Уровень значимости критерия. Ошибки первого и второго рода
Наиболее мощный критерий. Лемма Неймана-Пирсона. Критерий хи-квадрат для проверки простой гипотезы. Гипотеза однородности. A/B-тестирование. F-тест и t-тест. |
8 | Модель линейной регрессии | Метод наименьших квадратов (МНК). Простая линейная модель. Общая линейная модель. Свойства оценок МНК при выполнении линейного параметрического предположения: несмещенность и состоятельность.
интервальное оценивание в МНК; проверка линейных гипотез; МНК с линейными ограничениями; коэффициент детерминации.
|
4. Методические и оценочные материалы
Задания для практических занятий:
№ п/п |
Наименование раздела дисциплины (модуля) |
Перечень рассматриваемых тем (вопросов) |
1 | Основные понятия | Подсчет моментов в распределениях Фишера и Стьюдента, а также многомерного Гауссовского.
Вывод функции распределения и плотности порядковых статистик Проверка на несмещенность, состоятельность, сильную состоятельность и асимптотическую нормальность различных оценок для неизвестных параметров распределений Нахождение асимптотической дисперсии |
2 | Точечное оценивание | Сравнение различных оцнок в равномерном подходе с квадратичной функцией потерь
Подсчет информации ФИшера Поиск функций, для которых существуют эффективные оценки Вычисление оценок методом максимального правдоподобия в различных семействах |
3 | Интервальное оценивание | Построение точных доверительных интервалов для неизвестных параметров в абсолютно непрерывных распределениях
Построение асимптотических доверительных интервалов для неизвестных параметров в абсолютно непрерывных распределениях |
4 | Байесовские оценки | Нахождение байесовских оценок при квадратичной функции потерь с различными априорными распределениями |
5 | Проверка статистических гипотез | Проверка гипотез с использованием критерия согласия (Хи-квадрат)
Построение наиболее мощного критерия (Нейман-Пирсон) |
6 | Модель линейной регрессии | интервальное оценивание в методе наименьших квадратов; проверка линейных гипотез;
метод наименьших квадратов с линейными ограничениями; коэффициент детерминации. |
Текущий контроль успеваемости обучающихся по дисциплине:
(К формам текущего контроля можно отнести собеседование, коллоквиум, тест, контрольную работу, лабораторную работу, эссе, реферат и иные творческие работы.)
№ п/п |
Наименование раздела дисциплины |
Форма текущего контроля (выберите соответствующие формы контроля) |
Материалы текущего контроля (Указываются ВСЕ ЗАДАНИЯ/ВОПРОСЫ текущего контроля успеваемости обучающихся по разделам дисциплины подробно в соответствии с требованиями) |
1. | Проверка выполнения домашних заданий; Устный / письменный опрос; Тестирование (письменное или компьютерное); Эссе; Доклад; Защита проекта; Коллоквиум; Проверка разработки отдельных частей кода программного продукта и другие формы текущего контроля, используемые Вами на занятиях |
Например:
Устный / письменный опрос: Другие формы текущего контроля, используемые Вами на занятиях | |
2. | Проверка выполнения домашних заданий; Устный / письменный опрос; Тестирование (письменное или компьютерное); Эссе; Доклад; Защита проекта; Коллоквиум; Проверка разработки отдельных частей кода программного продукта и другие формы текущего контроля, используемые Вами на занятиях |
||
3. | Проверка выполнения домашних заданий; Устный / письменный опрос; Тестирование (письменное или компьютерное); Эссе; Доклад; Защита проекта; Коллоквиум; Проверка разработки отдельных частей кода программного продукта и другие формы текущего контроля, используемые Вами на занятиях |
||
4. | Проверка выполнения домашних заданий; Устный / письменный опрос; Тестирование (письменное или компьютерное); Эссе; Доклад; Защита проекта; Коллоквиум; Проверка разработки отдельных частей кода программного продукта и другие формы текущего контроля, используемые Вами на занятиях |
||
5. | Проверка выполнения домашних заданий; Устный / письменный опрос; Тестирование (письменное или компьютерное); Эссе; Доклад; Защита проекта; Коллоквиум; Проверка разработки отдельных частей кода программного продукта и другие формы текущего контроля, используемые Вами на занятиях |
||
... |
Контрольные вопросы для подготовки к промежуточной аттестации:
№ п/п |
Наименование раздела дисциплины |
Вопросы |
1. | ||
2. | ||
3. | ||
4. | ||
5. | ||
... |
Вопросы/Задания к промежуточной аттестации в устной/письменной форме:
1. Основные понятия математической статистики. Выборка, выборочное пространство, статистика, порядковые статистики, их функция распределения и плотность.
2. Теорема Фишера о независимости выборочного среднего и дисперсии в нормальной модели.
3. Несмещенные, асимптотически несмещенные оценки, смещение оценки. Состоятельные и Сильно состоятельные оценки. Достаточное условие состоятельности асимптотически несмещенной оценки. Асимптотически нормальная оценка и асимптотическая дисперсия.
4. Равномерный подход. Разложение среднеквадратичной ошибки оценивания в сумму дисперсии и квадрата смещения. Оптимальная оценка. Единственность оптимальной оценки в классе несмещенных оценок.
5. Функция правдоподобия. Вклад выборки. Информация Фишера. Регулярная модель. Связь информации Фишера и информации одного наблюдения в регулярной модели.
6. Функция правдоподобия. Вклад выборки. Информация Фишера. Регулярная модель. Альтернативная формула вычисления информации Фишера в регулярной семействе с обобщенной плотностью, дважды дифференцируемой по параметру.
7. Регулярная модель. Неравенство Рао-Крамера в случае скалярного параметра.
8. Регулярная модель. Эффективные оценки. Критерий эффективности.
9. Дивергенция Кульбака-Лейблера и ее свойства.
10. Функция правдоподобия. Метод максимального правдоподобия. Теорема о свойствах оценки максимального правдоподобия (без доказательства).
11. Байесовская подход и его отличие от классического подхода. Формула Байеса. Априорное и апостериорное распределения. Сопряженные априорные распределения.
12. Байесовский риск, байесовская оценка. Теорема о виде байесовской оценки при квадратичной функции потерь.
13. Основные понятия теории проверки гипотез. Простая и сложная гипотеза, ошибки первого и второго рода. Статистический критерий. Уровень значи- мости и функция мощности критерия. Несмещенность критерия.
14. Гипотеза о виде распределения. Критерий согласия хи-квадрат Пирсона. Тео рема о предельном распределении статистики Пирсона.
15. Гипотеза о виде распределения. Критерий согласия Колмогорова. Статистика Колмогорова-Смирнова и ее независимость от функции распределения. Тео-рема Гливенко-Кантелли (без доказательства). Теорема Колмогорова о предельном распределении статистики Колмогорова-Смирнова (без доказатель ства).
16. Наиболее мощный критерий. Критерий Неймана-Пирсона. Лемма Неймана- Пирсона. Несмещенность критерия Неймана-Пирсона
17. Гипотезы однородности. Параметрический критерий хи-квадрат для провер- ки однородности.
18. Гипотезы независимости. Параметрическийкритерийхи-квадратдляпровер- ки независимости.
19. Неравенство Маркова и неравенство Чебышёва. Оценка Чернова. Субгаус- совские случайные величины
Перечень учебно-методического обеспечения дисциплины
Список основной литературы:
Ивченко Г. И., Медведев Ю. И., Введение в математическую статистику (<a href="https://disk.yandex.ru/i/Ubk5YLMk_PJjYw">ссылка</a>);
М. Б. Лагутин Наглядная математическая статистика (<a href="https://disk.yandex.ru/i/212K-4gWWwjQzA">ссылка</a>);
Список дополнительной литературы:
Бородин А. Н., Элементарный курс теории вероятностей и математической статистики (<a href="https://disk.yandex.ru/i/Ubk5YLMk_PJjYw">ссылка</a>);
Боровков А. А., Математическая статистика (<a href="https://disk.yandex.ru/i/212K-4gWWwjQzA">ссылка</a>);
Larry A. Wasserman All of Statistics: A Concise Course in Statistical Inference (<a href="https://egrcc.github.io/docs/math/all-of-statistics.pdf">ссылка</a>);
Натан А. А., Горбачев О. Г., Гуз С. А., Математическая статистика (<a href="https://disk.yandex.ru/i/gtKNf7r9uTNluw">ссылка</a>);
Ушаков В. Г., конспекты лекций по математической статистике (ВМК МГУ, <a href="https://disk.yandex.ru/i/yx8zyo-oLIjwkQ">ссылка</a>).
Материалы зарубежных курсов по статистике Zhou Fan (Stanford University) <a href="https://web.stanford.edu/class/archive/stats/stats200/stats200.1172/lectures.html">ссылка</a>;
Philippe Rigollet (MIT) <a href="https://ocw.mit.edu/courses/18-650-statistics-for-applications-fall-2016/pages/lecture-slides/">ссылка</a>;
Larry Wasserman (Carnegie Mellon University) <a href="https://www.stat.cmu.edu/~larry/=stat705/">ссылка</a>;
Необходимое программное обеспечение:
Jupyter Notebooks
Методические указания для обучающихся по освоению дисциплины
Вид учебных занятий/деятельности |
Деятельность обучающегося |
Лекция | Написание конспекта лекций: кратко, схематично, последовательно фиксировать основные положения лекции, выводы, формулировки, обобщения; помечать важные мысли, выделять ключевые слова, термины. Обозначить вопросы, термины или другой материал, который вызывает трудности, пометить и попытаться найти ответ в рекомендуемой литературе. Если самостоятельно не удается разобраться в материале, необходимо сформулировать вопрос и задать преподавателю на консультации, во время семинарского (практического) занятия. |
Практическое (семинарское) занятие | При подготовке к семинарскому (практическому) занятию необходимо проработать материалы лекций, основной и дополнительной литературы по заданной теме. На основании обработанной информации постараться сформировать собственное мнение по выносимой на обсуждение тематике. Обосновать его аргументами, сформировать список источников, подкрепляющих его.
Во время семинарского (практического) занятия активно участвовать в обсуждении вопросов, высказывать аргументированную точку зрения на проблемные вопросы. Приводить примеры из источниковой базы и научной и/или исследовательской литературы. |
Контрольная работа | При подготовке к контрольной работе необходимо проработать материалы лекций, семинаров, основной и дополнительной литературы по заданной теме. |
Выполнение домашних заданий и групповых проектов | Для выполнения домашних заданий и групповых проектов необходимо получить формулировку задания от преподавателя и убедиться в понимании задания. При выполнение домашних заданий и групповых проектов необходимо проработать материалы лекций, основной и дополнительной литературы по заданной теме. |
Методы и технологии обучения, способствующие формированию компетенции
Методы и технологии обучения, способствующие формированию компетенции |
Информационно-коммуникационная технология. |