up

R для лингвистов: программирование и анализ данных

  • Russian

    course language

  • 10 weeks

    course duration

  • from 5 to 6 hours per week

    needed to educate

  • 3 credit points

    for credit at your university

 

Онлайн-курс познакомит студентов вузов и всех желающих с основами языка программирования R, кроме того, учебная программа поможет углубиться в изучение темы анализа и обработки данных. Для успешного прохождения дистанционного курса потребуется всего лишь 5-6 часов в неделю.

About

В течение 10 недель в формате кратких мини-лекций на примере задач компьютерной и теоретической лингвистики старший преподаватель Школы лингвистики НИУ ВШЭ Георгий Алексеевич Мороз расскажет слушателям про методы статистического анализа, а также про основы языка программирования R.
Привычные курсы по языкам программирования для лингвистов обычно основаны преимущественно на статистической обработке данных и их визуализации. Отличительной чертой данного онлайн-курса является то, что в него были дополнительно интегрированы все необходимые для лингвистов разделы, направленные на обработку и работу со строками естественного языка. Учебная программа не предполагает наличия у слушателя предварительных знаний по математике, программированию и лингвистике – при понимании базовых элементов пройти обучение можно буквально с нуля.
Содержательная часть программы помогает изучить основы статистического анализа данных. Также слушатели познакомятся со способами построения кластеризации и регрессий. Эти знания помогут в создании надежного фундамента для последующего расширенного обучения на занятиях, предназначенных для продвинутого статистического анализа и машинного обучения.
Для выполнения практических заданий вам потребуется установить программы R и RStudio. Пакеты необходимые для установки, будут перечислены в ходе лекций.

Format

Курс состоит из 10 недель, которые охватывают все разделы анализа данных: загрузка, чистка, разведочный анализ, визуализация и статистическое моделирование.
Большинство недель будет заканчиваться 4 часовым тестом, в ходе которого нужно будет решить несколько задач на программирование или анализ данных.
В открытом доступе вы можете ознакомиться с видеолекциями, доступ к оцениваемым заданиям и экзамену с прокторингом станет доступен после оплаты курса.

  1. Levshina N. (2015). How to do linguistics with R: Data exploration and statistical analysis. John Benjamins Publishing Company.
  2. Gries S.Th. (2009). Quantitative Corpus Linguistics with R: A Practical Introduction.
  3. Baayen R.H. (2006).  Analyzing Linguistic Data.
  4. Wickham H. (2015).  Advanced R.
  5. Everitt B.S., Hothorn T. (2006). A handbook of statistical analyses using R.

Requirements

В основном обучение ведется с нуля, однако базовые элементы программирования: такие как функция, переменные, циклы, подробно объясняться не будут. Так что знание других языков программирования, например, Python облегчит понимание, но не является обязательным. Примеры все будут приводится на данных для лингвистов, но никакого предварительного лингвистического образования не требуется.

Course program

  1. Введение в R: основные элементы, функции, циклы.
  2. Продвинутая обработка данных: пакеты tidyr и dplyr.
  3. Работа со строками: строки в R, регулярные выражения.
  4. Визуализация данных: base R vs. ggplot2.
  5. Интерактивная визуализация: rmarkdown, plotly, lingtypology.
  6. Работа с текстами: пакет tidytext.
  7. Введение в статистику: основы фриквентисткой статистики, формулировка гипотез.
  8. Корреляция и линейная регрессия.
  9. Кластеризация.
  10. Логистическая регрессия.

Education results

  • Готовность использовать основные законы научных дисциплин в профессиональной деятельности, применять методы математического анализа и моделирования, теоретического и экспериментального исследования в лингвистике.

Formed competencies

  • Готовность использовать основные законы научных дисциплин в профессиональной деятельности, применять методы математического анализа и моделирования, теоретического и экспериментального исследования в лингвистике (ОНК-1).
  • Способность самостоятельно работать на компьютере с использованием современного общего и профессионального прикладного ПО (ИК-1).
  • Умение осуществлять сбор, анализ и обработку данных, необходимых для решения поставленных экономических задач (ПК-4).
  • Способность использовать для решения аналитических и исследовательских задач (ПК-10).

Education directions

Knowledge

  • Язык программирования R.
  • Основы статистики.

Skills

  • Умение осуществлять сбор, анализ и обработку данных, необходимых для решения поставленных экономических задач.

Abilities

  • Способность самостоятельно работать на компьютере с использованием современного общего и профессионального прикладного ПО.
  • Способность использовать для решения аналитических и исследовательских задач современные технические средства и информационные технологии.

Отзывы о курсе

Мороз Георгий Алексеевич


Position: Доцент школы лингвистики, Факультет гуманитарных наук; Заведующий лабораторией, Международная лаборатория языковой конвергенции

course completion certificate

Certificate

Стоимость доступа к оцениваемым заданиям и возможности пройти экзамен с прокторингом для получения сертификата по курсу составляет 3600 рублей.

The cost of passing the procedures for assessing learning outcomes with personal identification - 3600 Р.

Similar courses