Программа «Прикладная статистика для машинного обучения», центр непрерывного образования, ВШЭ
Преподаватель: Леонид Иосипой (iosipoileonid@gmail.com).
Ассистент: Константин Медведев.
Сдача домашних работ по курсу организована в Google Classroom. Вам нужно зарегистрироваться в системе, нажать на + сверху и выбрать опцию “Присоединиться к курсу” (Join course). Код нашего курса: vbcj4z5. Все домашние задания будут появляться во вкладке “Задания” (Classwork).
У нашего курса есть папка в Dropbox со всеми материалами курса.
Организационная информация:
2 апреля — дедлайн по домашним работам, 7 апреля — объявление автоматов, 10-11 апреля — контрольная работа.
Я сделал небольшой опрос о курсе.
Буду очень благодарен, если Вы оставите обратную связь после курса.
Очень интересно узнать, что Вам понравилось, а что — нет. Все, естественно, анонимно.
20.01.2021 |
Введение в математическую статистику. Теория оценивания I.Повторение теории вероятностей. Оценивание параметров и сравнение оценок. Несмещенность и состоятельность. Метод моментов. Метод максимального правдоподобия. Конспект: Презентация 1. Полезные ссылки:
Обратите внимание на книгу [3] в списке литературы. Это хорошая книга-справочник, в которой собрано огромное количество оценок и критериев (мы их будем проходить позже). Кажется, что это самая полная книга по этим темам, доступная на русском языке.
Ссылки на литературу: |
27.01.2021 |
Введение в математическую статистику. Теория оценивания II.Метод Монте-Карло. Тяжелые хвосты. Распределение Коши. Выборочное среднее, выборочная медиана и выборочная мода. Выборочная дисперсия. Среднеквадратическое/стандартное отклонение. Генерация случайных величин и решение задач в Python.
Конспект:
Презентация 2.
Код:
Jupiter-ноутбуки 1.
Дополнительное задание: прочитайте про «среднее» в одной из этих двух книг:
Ссылки на литературу: |
03.02.2021 |
Введение в математическую статистику. Доверительные интервалы. Бутстрэп.
Построение доверительных интервалов. Квантили распределений. Распределения, связанные с нормальным: хи-квадрат и Стьюдента.
Доверительные интервалы в нормальной модели.
Бутстрэп (параметрический и непараметрический). Эмпирическая функция распределения.
Конспект:
Презентация 3.
Код:
Jupiter-ноутбуки 2.
Дополнительное задание: посмотрите Видео про бутстрэп, прочитайте подробнее про доверительные интервалы в модели Бернулли здесь и про методы построения доверительных интервалов в [2] (стр. 151-155).
Ссылки на литературу: |
10.02.2021 |
Прикладаная статистика. Проверка гипотез. Критерии согласия.
Введение в проверку гипотез. Статистический критерий. Статистика критерия. Достигаемый уровень значимости (p-value).
Конспект: Презентация 4. Код: Jupiter-ноутбуки 3.1. Дополнительное задание: прочитайте в [1] про критерий согласия для нормального распределения, основанный на исключении неизвестных параметров, (стр. 167-168) и про критерии согласия для экспоненциального и нормального распределения, основанные на подстановке оценок параметров, (стр. 166 и стр. 168-169 соответственно).
Ссылки на литературу: |
17.02.2021 |
Прикладаная статистика. Критерии однородности I.
Введение в критерии однородности. Параметрические критерии: одновыборочный Z-критерий, одновыборочный t-критерий.
Конспект: Презентация 5.
Дополнительное задание:
прочитайте про критерии однородности на случай нескольких (зависимых и независимых) выборок в [1]
Ссылки на литературу: |
24.02.2021 |
Прикладаная статистика. Критерии однородности II.Непараметрические критерии однородности для зависимых выборок: критерий знаков, критерий знаковых рангов Уилкоксона. Оценка параметра сдвига. Критика критериев Стьюдента. Реализация всех критериев в Python. Парадокс критерия хи-квадрат.
Конспект:
Презентация 6.
Код:
Jupiter-ноутбуки 3.2.
Дополнительное задание: просмотрите главу про проверку однородности нескольких выборок в [1] (Глава 16, стр. 237-253).
Ссылки на литературу: |
04.03.2021 |
Прикладаная статистика. Корреляция. Регрессия I.
Ковариация и корреляция. Коэффициенты корреляции Пирсона, Спирмена, Кендалла.
Критерий Пирсона. Критерий Кендалла.
Причинно-следственная связь и корреляция.
Конспект: Презентация 7. Код: Jupiter-ноутбуки 4.1. Полезные ссылки: Ложные корреляции. Дополнительное задание: прочитайте про множественную и частную корреляцию в [1] (стр. 347-350).
Ссылки на литературу: |
11.03.2021 |
Прикладаная статистика. Регрессия II.Парадоксы и ошибки в регрессии II. Реализация линейной регрессии в Python. Удаление, добавление и преобразование признаков. Оценка влияния признаков на отклик. Прогноз.
Конспект:
Презентация 7.
Код:
Jupiter-ноутбуки 4.2.
Дополнительное задание: прочитайте про критерий Фишера в [1] (стр. 368-372) и про «пример с коровой» в [1] (стр. 380-381).
Ссылки на литературу: |
18.03.2021 |
Прикладаная статистика. Временные ряды.
Временной ряд. Тренд, сезонность, цикл.
Автокорреляционная функция. Частная автокорреляционная функция.
Стационарность временного ряда. Критерий Дики-Фуллера.
Модель авторегрессии AR(p). Модель скользящего среднего MA(q).
Модели ARMA(p,q), SARMA(p,q)x(P,Q), ARIMA(p,d,q), SARIMA(p,d,q)x(P,D,Q).
Конспект:
Презентация 9.
Код:
Jupiter-ноутбуки 5.
Дополнительное задание: прочитайте про методы прогнозирования временных рядов, отличные от модели SARIMA, здесь.
Ссылки на литературу: |
Дополнительные материалы для интересующихся
Кроме базовых книг, ссылки на которые есть выше, могут быть интересны:
[1] Г. Ивченко, Ю. Медведев
«Введение в математическую статистику» – хороший классический учебник, если Вам нравится четкий академический стиль изложения.
[2] М. Кельберт, Ю. Сухов.
«Вероятность и статистика в примерах и задачах» – в первой части этого трехтомника, на который мы часто ссылались в курсе по теории вероятностей, есть материал про теорию оценивания и проверку гипотез.
[3] Г. Джеймс, Д. Уиттон, Т. Хасти, Р. Тибширани
«Введение в статистическое обучение с примерами на языке R» – перевод базовой версии очень популярной книги Хасти-Тибширани.
[4] Р. Кабаков
«R в действии. Анализ и визуализация данных на языке R» – хорошо написанный прикладной учебник с большим количеством примеров и кода на R.
[5] Ч. Уилан
«Голая статистика» – научно-популярная книга про статистику, которую можно читать по ходу нашего курса.
[6] Д. Хафф
«Как лгать при помощи статистики» – еще более научно-популярная книга, которую можно почитать в метро.