Программа «Прикладная статистика для машинного обучения», центр непрерывного образования, ВШЭ

Преподаватель: Леонид Иосипой (iosipoileonid@gmail.com).
Ассистент: Константин Медведев.

Сдача домашних работ по курсу организована в Google Classroom. Вам нужно зарегистрироваться в системе, нажать на + сверху и выбрать опцию “Присоединиться к курсу” (Join course). Код нашего курса: vbcj4z5. Все домашние задания будут появляться во вкладке “Задания” (Classwork).

У нашего курса есть папка в Dropbox со всеми материалами курса.

Организационная информация:
2 апреля — дедлайн по домашним работам, 7 апреля — объявление автоматов, 10-11 апреля — контрольная работа.

Я сделал небольшой опрос о курсе. Буду очень благодарен, если Вы оставите обратную связь после курса.
Очень интересно узнать, что Вам понравилось, а что — нет. Все, естественно, анонимно.

20.01.2021

Введение в математическую статистику. Теория оценивания I.

Повторение теории вероятностей. Оценивание параметров и сравнение оценок. Несмещенность и состоятельность. Метод моментов. Метод максимального правдоподобия.

Конспект: Презентация 1.

Полезные ссылки:

  1. Материалы курса по теории вероятностей.
  2. Визуализация некоторых идей теории вероятностей и статистики.
  3. Probability and Statistics Cookbook – конспект с основными формулами.

Обратите внимание на книгу [3] в списке литературы. Это хорошая книга-справочник, в которой собрано огромное количество оценок и критериев (мы их будем проходить позже). Кажется, что это самая полная книга по этим темам, доступная на русском языке.

Ссылки на литературу:
[1] М.Б. Лагутин. Наглядная математическая статистика;
[2] Н.И. Чернова. Математическая статистика. Учебное пособие;
[3] А.И. Кобзарь. Прикладная математическая статистика. Для инженеров и научных работников.

27.01.2021

Введение в математическую статистику. Теория оценивания II.

Метод Монте-Карло. Тяжелые хвосты. Распределение Коши. Выборочное среднее, выборочная медиана и выборочная мода. Выборочная дисперсия. Среднеквадратическое/стандартное отклонение. Генерация случайных величин и решение задач в Python.

Конспект: Презентация 2. Код: Jupiter-ноутбуки 1.
Домашнее задание: Листок 1 (до 11.02.2021).

Дополнительное задание: прочитайте про «среднее» в одной из этих двух книг:

  1. Д. Хафф. Как лгать при помощи статистики (Глава 2);
  2. Ч. Уилан. Голая статистика (Глава 2).

Ссылки на литературу:
[1] М.Б. Лагутин. Наглядная математическая статистика;
[2] Н.И. Чернова. Математическая статистика. Учебное пособие.

03.02.2021

Введение в математическую статистику. Доверительные интервалы. Бутстрэп.

Построение доверительных интервалов. Квантили распределений. Распределения, связанные с нормальным: хи-квадрат и Стьюдента. Доверительные интервалы в нормальной модели. Бутстрэп (параметрический и непараметрический). Эмпирическая функция распределения.

Работа с распределениями в Python. Построение теоретических и бутстрэп доверительных интервалов в Python на примере нормального распределения. Доверительные интервалы для параметра «успеха» в модели Бернулли в Python.

Конспект: Презентация 3. Код: Jupiter-ноутбуки 2.
Домашнее задание: Листок 2, Данные к задачам (до 25.02.2020).

Дополнительное задание: посмотрите Видео про бутстрэп, прочитайте подробнее про доверительные интервалы в модели Бернулли здесь и про методы построения доверительных интервалов в [2] (стр. 151-155).

Ссылки на литературу:
[1] Н.И. Чернова. Математическая статистика. Учебное пособие;
[2] М.Б. Лагутин. Наглядная математическая статистика.

10.02.2021

Прикладаная статистика. Проверка гипотез. Критерии согласия.

Введение в проверку гипотез. Статистический критерий. Статистика критерия. Достигаемый уровень значимости (p-value).

Критерии согласия. Критерий Колмогорова. Критерий Пирсона (хи-квадрат). Проверка равномерности. Проверка экспоненциальности (исключение неизвестного параметра, критерий Гини). Проверка нормальности (критерий Шапиро-Уилка, критерий Харке—Бера). Визуальный метод проверки гипотезы масштаба/сдвига – квантильный график (Q-Q Plot).

Конспект: Презентация 4. Код: Jupiter-ноутбуки 3.1.

Дополнительное задание: прочитайте в [1] про критерий согласия для нормального распределения, основанный на исключении неизвестных параметров, (стр. 167-168) и про критерии согласия для экспоненциального и нормального распределения, основанные на подстановке оценок параметров, (стр. 166 и стр. 168-169 соответственно).

Ссылки на литературу:
[1] М.Б. Лагутин. Наглядная математиечская статистика;
[2] Н.И. Чернова. Математическая статистика. Учебное пособие;
[3] А.И. Кобзарь. Прикладная математическая статистика. Для инженеров и научных работников.

17.02.2021

Прикладаная статистика. Критерии однородности I.

Введение в критерии однородности. Параметрические критерии: одновыборочный Z-критерий, одновыборочный t-критерий.

Параметрические критерии однородности: одновыборочные и двухвыборочные Z-критерий и t-критерий (независимые и зависимые выборки). Непараметрические критерии однородности для независимых выборок: критерий Колмогорова-Смирнова, критерий хи-квадрат, критерий Манна-Уитни.

Конспект: Презентация 5.

Дополнительное задание: прочитайте про критерии однородности на случай нескольких (зависимых и независимых) выборок в [1]
(стр. 237-248 и стр. 259-265).

Ссылки на литературу:
[1] М.Б. Лагутин. Наглядная математиечская статистика;
[2] Н.И. Чернова. Математическая статистика. Учебное пособие;
[3] А.И. Кобзарь. Прикладная математическая статистика. Для инженеров и научных работников.

24.02.2021

Прикладаная статистика. Критерии однородности II.

Непараметрические критерии однородности для зависимых выборок: критерий знаков, критерий знаковых рангов Уилкоксона. Оценка параметра сдвига. Критика критериев Стьюдента. Реализация всех критериев в Python. Парадокс критерия хи-квадрат.

Конспект: Презентация 6. Код: Jupiter-ноутбуки 3.2.
Домашнее задание: Листок 3, Данные к задачам (до 12.03.2021).

Дополнительное задание: просмотрите главу про проверку однородности нескольких выборок в [1] (Глава 16, стр. 237-253).

Ссылки на литературу:
[1] М.Б. Лагутин. Наглядная математиечская статистика;
[2] Н.И. Чернова. Математическая статистика. Учебное пособие;
[3] А.И. Кобзарь. Прикладная математическая статистика. Для инженеров и научных работников.

04.03.2021

Прикладаная статистика. Корреляция. Регрессия I.

Ковариация и корреляция. Коэффициенты корреляции Пирсона, Спирмена, Кендалла. Критерий Пирсона. Критерий Кендалла. Причинно-следственная связь и корреляция.

Задача регрессионного анализа. Формализация линейной регрессии. Метод наименьших квадратов (МНК). TSS, ESS, RSS. Коэффициент детерминации. Стандартные предположения в линейной регрессии и некоторые следствия из них. Статистические свойства оценок метода наименьших квадратов. Значимость значений регрессионных коэффициентов: критерий Стьюдента и Фишера. Парадоксы и ошибки в регрессии.

Конспект: Презентация 7. Код: Jupiter-ноутбуки 4.1.

Полезные ссылки: Ложные корреляции.

Дополнительное задание: прочитайте про множественную и частную корреляцию в [1] (стр. 347-350).

Ссылки на литературу:
[1] М.Б. Лагутин. Наглядная математиечская статистика.

11.03.2021

Прикладаная статистика. Регрессия II.

Парадоксы и ошибки в регрессии II. Реализация линейной регрессии в Python. Удаление, добавление и преобразование признаков. Оценка влияния признаков на отклик. Прогноз.

Конспект: Презентация 7. Код: Jupiter-ноутбуки 4.2.
Домашнее задание: Листок 4, Данные к задачам (до 26.03.2021).

Дополнительное задание: прочитайте про критерий Фишера в [1] (стр. 368-372) и про «пример с коровой» в [1] (стр. 380-381).

Ссылки на литературу:
[1] М.Б. Лагутин. Наглядная математиечская статистика.

18.03.2021

Прикладаная статистика. Временные ряды.

Временной ряд. Тренд, сезонность, цикл. Автокорреляционная функция. Частная автокорреляционная функция. Стационарность временного ряда. Критерий Дики-Фуллера. Модель авторегрессии AR(p). Модель скользящего среднего MA(q). Модели ARMA(p,q), SARMA(p,q)x(P,Q), ARIMA(p,d,q), SARIMA(p,d,q)x(P,D,Q).

Подгонка модели SARIMA(p,d,q)x(P,D,Q) к временному ряду. Стабилизация дисперсии. Преобразование Бокса-Кокса. Дифференцирование. Сезонное дифференцирование. Выбор параметров модели SARIMA. Информационный критерий Акаике (AIC). Анализ шума модели. Q-критерий Льюнга-Бокса.

Конспект: Презентация 9. Код: Jupiter-ноутбуки 5.
Домашнее задание: Листок 5, Данные к задачам (до 02.04.2021).

Дополнительное задание: прочитайте про методы прогнозирования временных рядов, отличные от модели SARIMA, здесь.

Ссылки на литературу:
[1] P. Cowpertwait, A. Metcalfe. Introductory Time Series with R;
[2] J. Cryer, K.-S. Chan. Time Series Analysis with Applications in R.

Дополнительные материалы для интересующихся

Кроме базовых книг, ссылки на которые есть выше, могут быть интересны:

[1] Г. Ивченко, Ю. Медведев «Введение в математическую статистику» – хороший классический учебник, если Вам нравится четкий академический стиль изложения.
[2] М. Кельберт, Ю. Сухов. «Вероятность и статистика в примерах и задачах» – в первой части этого трехтомника, на который мы часто ссылались в курсе по теории вероятностей, есть материал про теорию оценивания и проверку гипотез.
[3] Г. Джеймс, Д. Уиттон, Т. Хасти, Р. Тибширани «Введение в статистическое обучение с примерами на языке R» – перевод базовой версии очень популярной книги Хасти-Тибширани.
[4] Р. Кабаков «R в действии. Анализ и визуализация данных на языке R» – хорошо написанный прикладной учебник с большим количеством примеров и кода на R.
[5] Ч. Уилан «Голая статистика» – научно-популярная книга про статистику, которую можно читать по ходу нашего курса.
[6] Д. Хафф «Как лгать при помощи статистики» – еще более научно-популярная книга, которую можно почитать в метро.