наверх

Язык программирования R для лингвистов

 width=
17 сентября - 2 декабря 2018 г.
Курс уже начался
Запись на курс закрыта
Подпишитесь на новости и узнайте дату следующего запуска
  • 10 недель

    длительность курса

  • от 5 до 6 часов в неделю

    понадобится для освоения

  • 3 зачётных единицы

    для зачета в своем вузе

Данный курс знакомит слушателей с основами программирования на языке R, а также позволяет разобраться во всех этапах анализа данных. В ходе курса на примере задач теоретической и компьютерной лингвистики будут рассмотрены математические основы методов статистического анализа. Курс рассчитан на студентов-лингвистов, однако не предполагает никаких предварительных знаний по лингвистике, программированию и математике.

О курсе

Данный курс знакомит с основами программирования и обработки данных в R. Курс в первую очередь предназначен для теоретических лингвистов, хотя и не предполагает никаких предварительных знаний в какой-то конкретной области. В противовес стандартным курсам R, обычно основанным на статистической обработке данных и их визуализации, значительная часть курса посвящена работе со строками и обработке естественного языка. Курс состоит из 10 недель, которые охватывают все разделы анализа данных: загрузка, чистка, разведочный анализ, визуализация и статистическое моделирование. Большинство недель будет заканчиваться 4 часовым тестом, в ходе которого нужно будет решить несколько задач на программирование или анализ данных.  В части курса, посвященной статистическому анализу данных, мы обсудим основы статистического вывода и обсудим базовые статистические тесты. Кроме того мы обсудим методы построения регрессий и кластеризации, что станет хорошей базой для дальнейших курсов посвященных продвинутому статистическому анализу и машинному обучению. Для работы на курсе необходимо будет установить программы R и RStudio. Пакеты необходимые для установки, будут перечислены в ходе лекций.

Формат

Курс состоит из коротких видеолекций от 8 до 15 минут длиной, внутри которых встроены неоцениваемые вопросы. На каждой неделе будет представлен оцениваемый тест содержащий задачи на программирование, анализ и визуализацию данных.

- Levshina, N. (2015). How to do linguistics with R: Data exploration and statistical analysis. John Benjamins Publishing Company.

- Gries S. Th. (2009) Quantitative Corpus Linguistics with R: A Practical Introduction

- Baayen R. H. (2006) Analyzing Linguistic Data

- Wickham H. (2015) Advanced R

- Everitt B. S., Hothorn T. (2006) A handbook of statistical analyses using R

Требования

В основном обучение ведется с нуля, однако базовые элементы программирования: такие как функция, переменные, циклы, подробно объясняться не будут. Так что знание других языков программирования, например, Python облегчит понимание, но не является обязательным. Примеры все будут приводится на данных для лингвистов, но никакого предварительного лингвистического образования не требуется.

Программа курса

1. Введение в R: основные элементы, функции, циклы
2. Продвинутая обработка данных: пакеты tidyr и dplyr
3. Работа со строками: строки в R, регулярные выражения
4. Визуализация данных: base R vs. ggplot2
5. Интерактивная визуализация: rmarkdown, plotly, lingtypology
6. Работа с текстами: пакет tidytext
7. Введение в статистику: основы фриквентисткой статистики, формулировка гипотез
8. Корреляция и линейная регрессия
9. Кластеризация
10. Логистическая регрессия  

Результаты обучения

  • Готовность использовать основные законы научных дисциплин в профессиональной деятельности, применять методы математического анализа и моделирования, теоретического и экспериментального исследования в лингвистике

Формируемые компетенции

  • ОНК-1 Готовность использовать основные законы научных дисциплин в профессиональной деятельности, применять методы математического анализа и моделирования, теоретического и экспериментального исследования в лингвистике
  • ИК-1 Способность самостоятельно работать на компьютере с использованием современного общего и профессионального прикладного ПО
  • ПК-4 Умение   осуществлять сбор, анализ и обработку данных, необходимых  для решения поставленных экономических задач
  • ПК-10 Способность использовать для решения аналитических и исследовательских задач

Мороз Георгий Алексеевич


Должность: Старший преподаватель школы лингвистики/Факультет гуманитарных наук

сертификат об окончании курса

Сертификат

Сертификат участника обычно выдается при достижении 60% от общего рейтинга при условии сдачи работ до жесткого дедлайна. Сертификат с отличием, как правило, выдается при достижении 90% от общего рейтинга при условии сдачи работ до мягкого дедлайна.