up

Обобщенные линейные модели

Start date will be announced later

Start date for course enrollment has not been announced yet

  • Russian

    course language

  • 5 weeks

    course duration

  • от 6 до 7 часов в неделю

    needed to educate

  • 1 credit points

    for credit at your university

Курс реализуется в разделе "Программы" - Обобщенные линейные модели

Результаты подсчета чего-либо или вероятности возникновения событий - это величины, практически не поддающиеся моделированию при помощи обычных линейных моделей, так как не подчиняются нормальному распределению. Обобщенные линейные модели (Generalized Linear Models, GLM) позволяют обойти это ограничение.

About

В этом курсе мы постараемся с минимальным количеством математики  рассказать об устройстве GLM и многочисленных подводных камнях, связанных с анализом. GLM для счетных данных основаны на распределении Пуассона или отрицательном биномиальном распределении. Модели для бинарных данных (например, логистическая регрессия) - на биномиальном распределении. Мы обсудим особенности диагностики моделей, возникающие в зависимости от выбранного распределения. Параметры GLM подбирают при помощи метода максимального правдоподобия, поэтому и аппарат тестирования гипотез и техники упрощения моделей довольно сильно отличаются от привычного для простых линейных моделей. Для анализа данных мы будем использовать язык R, чтобы вы могли лучше разобраться в тонкостях работы с обобщенными линейными моделями. Вас ждут интерактивные задания на платформе Stepic и проект по анализу данных в конце курса.

Этот курс для всех, кто хочет научиться строить модели для счетных или бинарных величин. Для успешного прохождения пригодятся базовые представления о регрессионном анализе, умение создавать простейшие .html документы при помощи rmarkdown и knitr.

Format

Форма обучения заочная (дистанционная). Еженедельные занятия будут включать просмотр тематических видеолекций, изучение дополнительных материалов и выполнение тестовых заданий с автоматизированной проверкой результатов, тестирование по пройденному материалу. 

 

Requirements

Этот курс для всех, кто хочет научиться строить модели для счетных или бинарных величин. Для успешного прохождения пригодятся базовые представления о регрессионном анализе, умение создавать простейшие .html документы при помощи rmarkdown и knitr.

Course program

Курс состоит из 4 модулей:

1) Знакомство с обобщенными линейными моделями

Обобщенные линейные модели (GLM) позволяют моделировать поведение величин, не подчиняющихся нормальному распределению. Чтобы первые шаги в мире GLM были легче, мы разберем их устройство на примере GLM для нормально распределенных величин - так вы сможете проводить параллели с простыми линейными моделями. Вы узнаете, что такое функция связи, как работает метод максимального правдоподобия и научитесь тестировать гипотезы о GLM при помощи тестов Вальда и тестов отношения правдоподобий.

2) Проблема выбора модели

В этом модуле мы поговорим о методологических проблемах, связанных с построением моделей. Модель есть упрощенное отображение реальности и выбор между разными конкурирующими способами такого упрощения - частая задача аналитика. В этом модуле вы научитесь сравнивать модели при помощи информационных критериев. Мы обсудим основные варианты хода анализа при выборе моделей и поговорим о сложностях, возникающих в связи со скрытой множественностью моделей. Наконец, мы научим вас распознавать основные виды злоупотреблений при выборе моделей (data-fishing, p-hacking).

3) Обобщенные линейные модели для счетных данных

В этом модуле мы обсудим основные методы моделирования счетных величин. Для начала мы обсудим, почему обычные линейные модели не годятся для счетных данных. Свойства счетных распределений помогут вам понять отличия разновидностей GLM для счетных данных и особенности их диагностики. Вы своими глазами увидите работу функции связи, когда будете визуализировать предсказания GLM в масштабе функции связи и в масштабе переменной отклика.

4) Обобщенные линейные модели с бинарным откликом

Иногда возникает необходимость моделировать наступило ли какое-то событие или нет, выиграла ли футбольная команда или проиграла, выздоровел ли пациент после лечения или нет, совершил ли клиент покупку или нет. Для модели рования таких бинарных данных (событий с двумя исходами) не подходят обычные линейные модели, но это легко можно сделать при помощи обобщенных линейных моделей. В этом модуле вы научитесь моделировать вероятности наступления событий, представляя их в виде шансов. Мы разберем, как устроена функция связи логит и как интерпретируются коэффициенты GLM в случае ее применения. Наконец, вы сможете попрактиковаться в анализе обобщенных линейных моделей с разными распределениями, выполнив проект по анализу данных. Результаты этого анализа нужно будет представить в виде отчета в формате html, написанного при помощи rmarkdown/knitr.

 

Formed competencies

Дисциплина направлена на формирование универсальных компетенций обучающихся по образовательным программам бакалавриата/специалитета, а также иных компетенций, предусмотренных образовательной программой.

Education directions

Knowledge

Вы узнаете:

  • свойства основных распределений из семейства экспоненциальных;
  • что такое обобщенная линейная модель (GLM) в общем виде, роль функции связи и обратной ей функции в этой модели;
  • принцип работы метода максимального правдоподобия;
  • свойства основных распределений для моделирования счетных данных;
  • почему нормальное распределение не годится для моделирования счетных данных;
  • что такое сверхдисперсия, ее признаки, последствия и причины появления;
  • особенности работы с квази-пуассоновскими моделями.

Skills

Вы научитесь:

  • проводить диагностику обобщенной линейной модели с нормальным распределением отклика при помощи анализа остатков;
  • пользоваться тестом Вальда для проверки значимости коэффициентов и тестом отношения правдоподобий для проверки значимости модели в целом или отдельных предикторов;
  • вычислять долю объясненной девиансы;
  • визуализировать и интерпретировать результаты GLM;
  • сравнивать линейные модели при помощи информационных критериев;
  • представлять основные пути анализа при выборе моделей;
  • видеть сложности, возникающие при выборе моделей в связи с их скрытой множественностью и методы контроля над ними;
  •  распознавать злоупотребления при выборе моделей (data-fishing, p-hacking);
  • формулировать GLM с Пуассоновским или отрицательным биномиальным распределением отклика и  интерпретировать их коэффициенты;
  • визуализировать предсказания GLM с Пуассоновским или отрицательным биномиальным распределением отклика в масштабе функции связи и в масштабе отклика;
  • проверять выполнение условий применимости GLM с Пуассоновским или отрицательным биномиальным распределением отклика при помощи анализа остатков;
  • сопоставлять квази-пуассоновские модели с Пуассоновскими моделями;
  •  переводить друг в друга вероятности, шансы и логиты;
  • формулировать GLM с биномиальным распределением отклика и интерпретировать ее коэффициенты;
  • визуализировать предсказания GLM с биномиальным распределением отклика в масштабе функции связи и в масштабе отклика;
  • проверять выполнение условий применимости GLM с биномиальным распределением отклика при помощи анализа остатков;
  • создавать отчет в формате html при помощи rmarkdown/knitr об анализе данных с помощью обобщенной линейной модели.

Варфоломеева Марина Александровна

PhD СПбГУ
Position: старший преподаватель кафедры зоологии беспозвоночных

Хайтов Вадим Михайлович

Кандидат биологических наук
Position: доцент

Similar courses