уровень образования
язык программы
длительность программы
понадобится для освоения
36 академических часов
за обучение
Эта программа поможет научиться строить модели со случайными факторами для величин с разными типами распределений. Чтобы легче осваивать материалы курса, вам пригодятся базовые представления о линейных моделях (общих и обобщенных), базовые знания R и умение создавать простейшие .html документы при помощи rmarkdown и knitr.
Oдним из условий применимости обычных линейных моделей является независимость наблюдений друг от друга, на основе которых подбирается модель. Однако на практике часто встречаются ситуации, когда дизайн сбора материала таков, что нарушение этого условия неизбежно. Представьте, что вы решили построить модель, описывающую связь успеваемости по физкультуре и величины IQ теста у студентов. Для решения этой задачи вы сделали многочисленные выборки в нескольких институтах. Можно ли объединить такие данные в один анализ, построенной по традиционной схеме? Конечно нет. Студенты в каждом вузе могут быть в чем-то сходными друг с другом. Даже характер связи между изучаемыми величинами может быть несколько разным. Такого рода данные, в которых присутствуют внутригрупповые корреляции, стоит анализировать при помощи смешанных линейных моделей. Мы покажем, что некоторые предикторы стоит включать в модель в качестве так называемых “случайных факторов”. Вы узнаете, что случайные факторы могут быть иерархически соподчинены. Мы обсудим, как такие смешанные модели могут быть построены для зависимых переменных подчиняющихся разным типам распределений. Кроме того, мы покажем, что случайная часть модели может быть устроена еще сложнее - в ней может быть компонент, моделирующий поведение дисперсии в ответ на влияние ковариаты. В конце курса вас ждет проект, в котором вы сможете потренироваться в построении смешанных моделей, выбрав один из нескольких датасетов. На основе анализа этих данных вы сможете создать отчет, выдержанный в традициях воспроизводимого исследования.
Форма обучения заочная (дистанционная). Еженедельные занятия будут включать просмотр тематических видеолекций, изучение дополнительных материалов и выполнение тестовых заданий с автоматизированной проверкой результатов, тестирование по пройденному материалу.
Курс состоит из 4 модулей:
1) Знакомство с обобщенными линейными моделями
Обобщенные линейные модели (GLM) позволяют моделировать поведение величин, не подчиняющихся нормальному распределению. Чтобы первые шаги в мире GLM были легче, мы разберем их устройство на примере GLM для нормально распределенных величин - так вы сможете проводить параллели с простыми линейными моделями. Вы узнаете, что такое функция связи, как работает метод максимального правдоподобия и научитесь тестировать гипотезы о GLM при помощи тестов Вальда и тестов отношения правдоподобий.
2) Проблема выбора модели
В этом модуле мы поговорим о методологических проблемах, связанных с построением моделей. Модель есть упрощенное отображение реальности и выбор между разными конкурирующими способами такого упрощения - частая задача аналитика. В этом модуле вы научитесь сравнивать модели при помощи информационных критериев. Мы обсудим основные варианты хода анализа при выборе моделей и поговорим о сложностях, возникающих в связи со скрытой множественностью моделей. Наконец, мы научим вас распознавать основные виды злоупотреблений при выборе моделей (data-fishing, p-hacking).
3) Обобщенные линейные модели для счетных данных
В этом модуле мы обсудим основные методы моделирования счетных величин. Для начала мы обсудим, почему обычные линейные модели не годятся для счетных данных. Свойства счетных распределений помогут вам понять отличия разновидностей GLM для счетных данных и особенности их диагностики. Вы своими глазами увидите работу функции связи, когда будете визуализировать предсказания GLM в масштабе функции связи и в масштабе переменной отклика.
4) Обобщенные линейные модели с бинарным откликом
Иногда возникает необходимость моделировать наступило ли какое-то событие или нет, выиграла ли футбольная команда или проиграла, выздоровел ли пациент после лечения или нет, совершил ли клиент покупку или нет. Для модели рования таких бинарных данных (событий с двумя исходами) не подходят обычные линейные модели, но это легко можно сделать при помощи обобщенных линейных моделей. В этом модуле вы научитесь моделировать вероятности наступления событий, представляя их в виде шансов. Мы разберем, как устроена функция связи логит и как интерпретируются коэффициенты GLM в случае ее применения. Наконец, вы сможете попрактиковаться в анализе обобщенных линейных моделей с разными распределениями, выполнив проект по анализу данных. Результаты этого анализа нужно будет представить в виде отчета в формате html, написанного при помощи rmarkdown/knitr.
Вы научитесь:
уровень образования
язык программы
длительность программы
понадобится для освоения
36 академических часов
за обучение
PhD СПбГУ
Должность: старший преподаватель кафедры зоологии беспозвоночных
Кандидат биологических наук
Должность: доцент