BSc: MathStatistics

From IU
Jump to navigation Jump to search

Математическая статистика

Квалификация выпускника: бакалавр
Направление подготовки: 09.03.01 - “Информатика и вычислительная техника”
Направленность (профиль) образовательной программы: Математические основы ИИ
Программу разработал(а): Двинских Дарина, Пучкин Никита


1. Краткая характеристика дисциплины

Математическая статистика - это раздел математики, отвечающий за математическое моделирования наблюдаемых явлений. Данный курс нацелен на обучение статистическим методам, позволяющим извлечь из данных необходимую информацию (оценить неизвестные параметры распределений или проверить статистические гипотезы), а также понимаю применимости этих методов. В рамках курса “Математическая статистика” слушатели познакомятся с теоретическими основами современной математической статистики ее основными результатами, научатся решать стандартные задачи. Данная дисциплина также представляет собой теоретическую основу для более глубокого понимания дальнейших курсов, например, машинного обучения.


2. Перечень планируемых результатов обучения

Целью освоения дисциплины является умение анализировать данные: описывать наблюдаемые величины математическими моделями и применять математические методы для их анализа.


Задачами дисциплины являются:

• научиться строить математические модели для описания случайных явлений

• научиться строить, а также сравнивать, точечные и интервальные оценки

• для неизвестных параметров распределения

• научиться строить байесовские точечные оценки

• научиться строить и проверять статистические гипотезы

• научиться проводить статистические численные эксперименты: реализовывать основные алгоритмы построения оценок и проверки статистических гипотез на языке программирования Python.


Общая характеристика результата обучения по дисциплине

Знания: сформированы систематические знания о параметрической и непараметрической статистике, основных методов, а также условий их применимости.
Умения: сформированы умения оценивать как неизвестные параметры распределения, так и плотность (в непараметрической статистике), проверять статистические гипотезы.
Навыки (владения): сформировано владение навыком построения математических моделей для описания случайных явлений.

3. Структура и содержание дисциплины


п/п
Наименование раздела
дисциплины
Содержание дисциплины по темам
1. Основные понятия Свойства оценок: несмещенность, состоятельность, асимптотическая нормальность. Оценка функции распределения, эмпирическая функция распределения, ее свойства.

Оценка квантилей. Порядковые статистики. Функция распределения и плотность распределения порядковых статистик.

Оценка математического ожидания и дисперсии. Выборочные моменты и центральные выборочные моменты. Нормальный случайный вектор, его свойства.

Распределения Фишера и Стьюдента.

2. Точечное оценивание Регулярные семейства. Информация Фишера, функция правдоподобия, неравенство Рао-Крамера. Эффективные оценки

Экспоненциальное семейство распределений.

Сверхэффективные оценки

Вычисление оценок методом максимального правдоподобия. Свойства оценок максимального правдоподобия.

М-оценки.

3. Интервальное оценивание Точные доверительные интервалы. Метод центральной статистики.

Асимптотические доверительные интервалы

4. Байесовские оценки Априорное и апостериорное распределения. Сопряженное априорное распределение

Байесовский риск и байесовские оценки.

5. Проверка статистических гипотез Основные понятия статистической проверки гипотез. Простая и сложная гипотезы. Статистический критерий. Уровень значимости критерия. Ошибки первого и второго рода

Наиболее мощный критерий. Лемма Неймана-Пирсона.

Критерий хи-квадрат для проверки простой гипотезы.

Гипотеза однородности. A/B-тестирование. F-тест и t-тест.

6. Модель линейной регрессии Метод наименьших квадратов (МНК). Простая линейная модель. Общая линейная модель. Свойства оценок МНК при выполнении линейного параметрического предположения: несмещенность и состоятельность.

интервальное оценивание в МНК; проверка линейных гипотез; МНК с линейными ограничениями; коэффициент детерминации.


4. Методические и оценочные материалы

Задания для практических занятий:


п/п
Наименование раздела
дисциплины (модуля)
Перечень рассматриваемых тем (вопросов)
1 Основные понятия Пусть -- выборка из равномерного распределения на отрезке . Проверьте на несмещенность, состоятельность и сильную состоятельность следующие оценки параметра : , , , , .


Найдите несмещенную оценку в нормальной модели с известной дисперсией .

2 Точечное оценивание Пусть -- выборка из распределения Бернулли , . Посчитайте информацию Фишера. Найдите эффективную оценку параметра .


Пусть -- выборка из экспоненциального распределения с параметром . Посчитайте информацию Фишера. Для какой функции существует эффективная оценка?

3 Интервальное оценивание Найдите оценки по методу максимального правдоподобия для в следующих распределений: , ; , ; , , если параметр известен; , ; , .


Пусть --- выборка из нормального распределения , . Найдите байесовскую оценку параметра , если его априорное распределение также является нормальным с параметрами , .

4 Байесовские оценки -- выборка из

. Постройте точный доверительный интервал уровня доверия для дисперсии при неизвестном математическом ожидании .


-- выборка из . Постройте точный доверительный интервал уровня доверия для математического ожидания при неизвестной дисперсии .

5 Проверка статистических гипотез -- выборка из равномерного распределения , . Постройте точный доверительный интервал уровня

доверия для параметра .


Пусть -- выборка из пуассоновского распределения с параметром . Постройте асимптотический доверительный интервал уровня доверия для параметра .

6 Модель линейной регрессии Имеется -- выборка объёма 1. Основная гипотеза состоит в том, что имеет равномерное распределение на отрезке , альтернатива -- в том, что имеет экспоненциальное распределение с параметром 1.

Постройте наиболее мощный критерий уровня значимости для различения этих гипотез и вычислите его вероятность ошибки второго рода.


Пусть -- выборка из экспоненциального распределения . Постройте равномерно наиболее мощный критерий уровня значимости для проверки гипотезы : против альтернативы : .

Докажите, что оценка наименьших квадратов имеет следующий вид: и найдите ее математическое ожидание и дисперсию.

Текущий контроль успеваемости обучающихся по дисциплине:


п/п
Наименование раздела
дисциплины
Форма текущего контроля
Материалы текущего контроля
1. Основные понятия Проверка выполнения домашних заданий;
Устный / письменный опрос
Подсчет моментов в распределениях Фишера и Стьюдента, а также многомерного Гауссовского.

Вывод функции распределения и плотности порядковых статистик

Проверка на несмещенность, состоятельность, сильную состоятельность и асимптотическую нормальность различных оценок для неизвестных параметров распределений

Нахождение асимптотической дисперсии

2. Точечное оценивание Проверка выполнения домашних заданий;
Устный / письменный опрос
Сравнение различных оценок в равномерном подходе с квадратичной функцией потерь

Подсчет информации Фишера

Поиск функций, для которых существуют эффективные оценки

Вычисление оценок методом максимального правдоподобия в различных семействах

3. Интервальное оценивание Проверка выполнения домашних заданий;
Устный / письменный опрос
Построение точных доверительных интервалов для неизвестных параметров в абсолютно непрерывных распределениях

Построение асимптотических доверительных интервалов для неизвестных параметров в абсолютно непрерывных распределениях

4. Байесовские оценки Проверка выполнения домашних заданий;
Устный / письменный опрос
Нахождение байесовских оценок при квадратичной функции потерь с различными априорными распределениями
5. Проверка статистических гипотез Проверка выполнения домашних заданий;
Устный / письменный опрос
Проверка гипотез с использованием критерия согласия (Хи-квадрат)

Построение наиболее мощного критерия (Нейман-Пирсон)

Интервальное оценивание в методе наименьших квадратов

6. Модель линейной регрессии Проверка выполнения домашних заданий;
Устный / письменный опрос
Проверка линейных гипотез;

Метод наименьших квадратов с линейными ограничениями;

Коэффициент детерминации.

Вопросы/Задания к промежуточной аттестации в устной/письменной форме:

1. Основные понятия математической статистики. Выборка, выборочное пространство, статистика, порядковые статистики, их функция распределения и плотность.
2. Теорема Фишера о независимости выборочного среднего и дисперсии в нормальной модели.
3. Несмещенные, асимптотически несмещенные оценки, смещение оценки. Состоятельные и Сильно состоятельные оценки. Достаточное условие состоятельности асимптотически несмещенной оценки. Асимптотически нормальная оценка и асимптотическая дисперсия.
4. Равномерный подход. Разложение среднеквадратичной ошибки оценивания в сумму дисперсии и квадрата смещения. Оптимальная оценка. Единственность оптимальной оценки в классе несмещенных оценок.
5. Функция правдоподобия. Вклад выборки. Информация Фишера. Регулярная модель. Связь информации Фишера и информации одного наблюдения в регулярной модели.
6. Функция правдоподобия. Вклад выборки. Информация Фишера. Регулярная модель. Альтернативная формула вычисления информации Фишера в регулярной семействе с обобщенной плотностью, дважды дифференцируемой по параметру.
7. Регулярная модель. Неравенство Рао-Крамера в случае скалярного параметра.
8. Регулярная модель. Эффективные оценки. Критерий эффективности.
9. Дивергенция Кульбака-Лейблера и ее свойства.
10. Функция правдоподобия. Метод максимального правдоподобия. Теорема о свойствах оценки максимального правдоподобия (без доказательства).
11. Байесовская подход и его отличие от классического подхода. Формула Байеса. Априорное и апостериорное распределения. Сопряженные априорные распределения.
12. Байесовский риск, байесовская оценка. Теорема о виде байесовской оценки при квадратичной функции потерь.
13. Основные понятия теории проверки гипотез. Простая и сложная гипотеза, ошибки первого и второго рода. Статистический критерий. Уровень значимости и функция мощности критерия. Несмещенность критерия.
14. Гипотеза о виде распределения. Критерий согласия хи-квадрат Пирсона. Теорема о предельном распределении статистики Пирсона.
15. Гипотеза о виде распределения. Критерий согласия Колмогорова. Статистика Колмогорова-Смирнова и ее независимость от функции распределения. Теорема Гливенко-Кантелли (без доказательства). Теорема Колмогорова о предельном распределении статистики Колмогорова-Смирнова (без доказательства).
16. Наиболее мощный критерий. Критерий Неймана-Пирсона. Лемма Неймана- Пирсона. Несмещенность критерия Неймана-Пирсона
17. Гипотезы однородности. Параметрический критерий хи-квадрат для проверки однородности.
18. Гипотезы независимости. Параметрический критерий хи-квадрат для проверки независимости.
19. Неравенство Маркова и неравенство Чебышёва. Оценка Чернова. Субгауссовские случайные величины

Перечень учебно-методического обеспечения дисциплины

Список основной литературы:

Ивченко Г. И., Медведев Ю. И., Введение в математическую статистику (ссылка );

М. Б. Лагутин Наглядная математическая статистика (ссылка );

Список дополнительной литературы:

Бородин А. Н., Элементарный курс теории вероятностей и математической статистики (ссылка );

Боровков А. А., Математическая статистика (ссылка );

Larry A. Wasserman All of Statistics: A Concise Course in Statistical Inference (ссылка );

Натан А. А., Горбачев О. Г., Гуз С. А., Математическая статистика (ссылка );

Ушаков В. Г., конспекты лекций по математической статистике (ВМК МГУ, ссылка ).

Материалы зарубежных курсов по статистике Zhou Fan (Stanford University) ссылка ;

Philippe Rigollet (MIT) ссылка ;

Larry Wasserman (Carnegie Mellon University) ссылка ;

Необходимое программное обеспечение:

Jupyter Notebooks

Методические указания для обучающихся по освоению дисциплины

Вид учебных
занятий/деятельности
Деятельность обучающегося
Лекция Написание конспекта лекций: кратко, схематично, последовательно фиксировать основные положения лекции, выводы, формулировки, обобщения; помечать важные мысли, выделять ключевые слова, термины. Обозначить вопросы, термины или другой материал, который вызывает трудности, пометить и попытаться найти ответ в рекомендуемой литературе. Если самостоятельно не удается разобраться в материале, необходимо сформулировать вопрос и задать преподавателю на консультации, во время семинарского (практического) занятия.
Практическое (семинарское) занятие При подготовке к семинарскому (практическому) занятию необходимо проработать материалы лекций, основной и дополнительной литературы по заданной теме. На основании обработанной информации постараться сформировать собственное мнение по выносимой на обсуждение тематике. Обосновать его аргументами, сформировать список источников, подкрепляющих его.

Во время семинарского (практического) занятия активно участвовать в обсуждении вопросов, высказывать аргументированную точку зрения на проблемные вопросы. Приводить примеры из источниковой базы и научной и/или исследовательской литературы.

Контрольная работа При подготовке к контрольной работе необходимо проработать материалы лекций, семинаров, основной и дополнительной литературы по заданной теме.
Выполнение домашних заданий и групповых проектов Для выполнения домашних заданий и групповых проектов необходимо получить формулировку задания от преподавателя и убедиться в понимании задания. При выполнение домашних заданий и групповых проектов необходимо проработать материалы лекций, основной и дополнительной литературы по заданной теме.
Письменный экзамен
Устный экзамен

Методы и технологии обучения, способствующие формированию компетенции

Методы и технологии обучения, способствующие формированию компетенции
Информационно-коммуникационная технология.