длительность курса
понадобится для освоения
для зачета в своем вузе
Данный курс знакомит слушателей с основами программирования на языке R, а также позволяет разобраться во всех этапах анализа данных. В ходе курса на примере задач теоретической и компьютерной лингвистики будут рассмотрены математические основы методов статистического анализа. Курс рассчитан на студентов-лингвистов, однако не предполагает никаких предварительных знаний по лингвистике, программированию и математике.
Данный курс знакомит с основами программирования и обработки данных в R. Курс в первую очередь предназначен для теоретических лингвистов, хотя и не предполагает никаких предварительных знаний в какой-то конкретной области. В противовес стандартным курсам R, обычно основанным на статистической обработке данных и их визуализации, значительная часть курса посвящена работе со строками и обработке естественного языка. Курс состоит из 10 недель, которые охватывают все разделы анализа данных: загрузка, чистка, разведочный анализ, визуализация и статистическое моделирование. Большинство недель будет заканчиваться 4 часовым тестом, в ходе которого нужно будет решить несколько задач на программирование или анализ данных. В части курса, посвященной статистическому анализу данных, мы обсудим основы статистического вывода и обсудим базовые статистические тесты. Кроме того мы обсудим методы построения регрессий и кластеризации, что станет хорошей базой для дальнейших курсов посвященных продвинутому статистическому анализу и машинному обучению. Для работы на курсе необходимо будет установить программы R и RStudio. Пакеты необходимые для установки, будут перечислены в ходе лекций.
Курс состоит из коротких видеолекций от 8 до 15 минут длиной, внутри которых встроены неоцениваемые вопросы. На каждой неделе будет представлен оцениваемый тест содержащий задачи на программирование, анализ и визуализацию данных.
- Levshina, N. (2015). How to do linguistics with R: Data exploration and statistical analysis. John Benjamins Publishing Company.
- Gries S. Th. (2009) Quantitative Corpus Linguistics with R: A Practical Introduction
- Baayen R. H. (2006) Analyzing Linguistic Data
- Wickham H. (2015) Advanced R
- Everitt B. S., Hothorn T. (2006) A handbook of statistical analyses using R
В основном обучение ведется с нуля, однако базовые элементы программирования: такие как функция, переменные, циклы, подробно объясняться не будут. Так что знание других языков программирования, например, Python облегчит понимание, но не является обязательным. Примеры все будут приводится на данных для лингвистов, но никакого предварительного лингвистического образования не требуется.
1. Введение в R: основные элементы, функции, циклы
2. Продвинутая обработка данных: пакеты tidyr и dplyr
3. Работа со строками: строки в R, регулярные выражения
4. Визуализация данных: base R vs. ggplot2
5. Интерактивная визуализация: rmarkdown, plotly, lingtypology
6. Работа с текстами: пакет tidytext
7. Введение в статистику: основы фриквентисткой статистики, формулировка гипотез
8. Корреляция и линейная регрессия
9. Кластеризация
10. Логистическая регрессия
Умение осуществлять сбор, анализ и обработку данных, необходимых для решения поставленных экономических задач
длительность курса
понадобится для освоения
для зачета в своем вузе
Должность: Старший преподаватель школы лингвистики, Факультет гуманитарных наук; Младший научный сотрудник, Международная лаборатория языковой конвергенции
Предусмотрен сертификат.