up

Методы и алгоритмы компьютерной лингвистики

61 days
Before the end of the enrollment
  • Russian

    course language

  • 10 weeks

    course duration

  • from 2 to 3 hours per week

    needed to educate

  • 2 credit points

    for credit at your university

Из онлайн-курса «Методы и алгоритмы компьютерной лингвистики» вы узнаете об основных методах “классического” машинного обучения, научитесь решать задачи классификации текстов (в частности, задачу анализа тональности высказывания), морфологического анализа, распознавания именованных сущностей с использованием методов машинного обучения. Также вы овладеете техникой разработки компьютерных моделей машинного обучения на языке программирования Python

About

Онлайн-курс предназначен для студентов математических, гуманитарных и IT-специальностей. А также для проджект-менеджеров, IT-специалистов и для всех, кто владеет основами программирования на Python. Из курса вы узнаете, что такое разговорный искусственный интеллект и на чём он основан. Научитесь различным методам машинного обучения, которые используются для анализа текстов, и отработаете все полученные знания на практических занятиях. В курсе рассказывается о видах машинного обучения: обучение с учителем, обучение без учителя, обучение с подкреплением, о задачах классификации и регрессии. О том, как передать текст компьютер, о признаковом описании объекта. Научитесь проводить лингвистический анализ текста (токенизация, стемминг, лемматизация и другие). Узнаете о логистической регрессии, “деревьях” решений.

Автор курса — старший преподаватель кафедры фундаментальной и прикладной лингвистики Гуманитарного института НГУ, победитель научного соревновании Shifts Challenge-2021 на лучший алгоритм ИИ, способный работать в условиях «сдвига» данных, Иван Бондаренко

Format

Курс состоит из 10 недель обучения.

Образовательные активности каждой недели включают:

  1. Просмотр видеолекций

  2. Отработка полученных знаний на практических занятий 

  3. Выполнение оцениваемого теста по итогам недели

Кроме того, студенты должны пройти итоговый тест по материалам всего курса для получения итоговой оценки

  1. Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб.пособие— М.: МИЭМ, 2011. — 272 с. URL: http://elib.nsu.ru/dsweb/Get/Resource-1583/page001.pdf.

  2. Батура Т.В. Математическая лингвистика и автоматическая обработка текстов на естественном языке : учебное пособие : [для студентов и аспирантов ФИТ, ММФ и ГФ (отделение фундаментальной и прикладной лингвистики) НГУ] / Т.В. Батура ; М-во образования и науки Рос. Федерации, Новосиб. гос. ун-т, Фак. информ. технологий, Каф. систем информатики .— Новосибирск: Редакционно-издательский центр НГУ, 2016 .— 165 с. : ил. ; 20 см. .— Библиогр. в конце глав .— URL: http://elib.nsu.ru/dsweb/Get/Resource-1583/page001.pdf.

  3. Гладкий, Алексей Всеволодович. Элементы математической лингвистики / А. В. Гладкий, И. А. Мельчук. Москва: Наука, 1969. 192 с. (20 экземпляров)

  4. Daniel Jurafsky, James H. Martin. "Speech and Language Processing". URL: https://web.stanford.edu/~jurafsky/slp3/

  5. Маннинг К. Д., Рагхаван П., Шютце Х. «Введение в информационный поиск». Москва: Диалектика, 2020. 528 с. 

  6. Конференция «Диалог». URL: https://www.dialog-21.ru

Конференции под эгидой ACL (the Association for Computational Linguistics). URL: https://www.aclweb.org

Requirements

Среднее общее образование или среднее специальное образование

Course program

Модуль 1. Что такое разговорный искусственный интеллект?

  • О чём этот курс?

  • Машинное обучение. Когда оно бывает вредным?

  • Виды машинного обучения

  • История развития искусственного интеллекта

Модуль 2. Умеет ли искусственный интеллект общаться?

  • Умеет ли искусственный интеллект общаться?

  • Как анализировать целые тексты?

  • Обучение с учителем. Классификация и регрессия

Модуль 3. Как передать текст компьютеру? Лингвистический аспект

  • Какие признаки бывают у объектов?

  • Стемминг: как отсекать лишнее?

  • Лемматизация: что делать с морфологическими омонимами?

  • Токенизация и лемматизация русских текстов с помощью библиотеки spaCy. Практическое занятие

Модуль 4. Как передать текст компьютеру? Статистический аспект

  • Ищем устойчивые сочетания слов. Статистика VS лингвистика

  • Выбор значимых элементов из «мешка слов» на основе критерия χ2

  • Векторизация текстов на основе TF-IDF и сокращение «мешка слов» на основе критерия χ2. Практическое занятие

  • Применение коллокатора для «умного» выявления наиболее частотных словосочетаний. Практическое занятие

Модуль 5. Как научить компьютер понимать тексты?

  • Методы обучения с учителем. Логистическая регрессия

  • Как обучать логистическую регрессию?

  • Что делать, если компьютер переучился?

  • Как оценить качество логистической регрессии?

  • Точность, полнота и F-мера для оценки качества классификации

  • Регуляризация и подбор гиперпараметров логистической регрессии

  • Применение библиотеки scikit-learn для анализа тональности твитов методом логистической регрессии. Практическое занятие

  • Оценка качества алгоритма классификации. Практическое занятие

  • Как улучшить качество классификатора? Практическое занятие

  • Как выбрать оптимальные гиперпараметры? Практическое занятие

Модуль 6. Как вырастить деревья решений?

  • Для чего нужны деревья решений?

  • Базовый алгоритм

  • Алгоритм ID3

  • Как бороться с переобучением деревьев?

  • Дискретизация количественных признаков

  • Выращиваем деревья решений для анализа тональности сообщений. Практическое занятие

  • Выращиваем деревья решений без ограничений по глубине. Практическое занятие

Модуль 7. Вместе мы сила! Равноправное голосование решающих алгоритмов

  • Теоретические основы ансамблирования

  • Бэггинг. Как повысить разнообразие алгоритмов в коллективе?

  • Бэггинг и дилемма смещения-разброса

  • Построение ансамбля алгоритмов для задачи анализа тональности сообщений. Практическое занятие

  • Использование бэггинга для логистической регрессии. Практическое занятие

Модуль 8. Вместе мы сила! Голосование с учётом компетентности

  • Бустинг

  • Градиентный бустинг

  • Градиентное усиление деревьев решений. Практическое занятие

  • Смесь экспертов

  • Многоярусное обобщение. Стекинг

  • Иерархический ансамбль. Стекинг. Практическое занятие

Модуль 9. Проблема объяснимости модели

  • Интерпретируемость машинного обучения

  • Значимость признаков на основе перестановок

  • Вектор Шепли

  • Значимость слов для классификации текстов: «белый ящик» и «черный ящик». Практическое занятие

Модуль 10. Проблема объяснимости корпуса текстов

  • Вероятностная тематическая модель

  • Вероятностный латентно-семантический анализ

  • Латентное размещение Дирихле

  • Использование вероятностных тематических моделей для анализа текстового корпуса. Практическое занятие

  • Подводим итоги

Education results

В результате освоения дисциплины слушатель должен:

  • знать основные методы машинного обучения;

  • уметь решать задачи классификации текстов, морфологического анализа, распознавания именнованных сущностей с использованием методов машинного обучения;

  • владеть техникой разработки компьютерных моделей машинного обучения на языке программирования Python

  • уметь объективно оценивать системы разговорного искусственного интеллекта;

  • уметь проводить лингвистический анализ текста (токенизация, стемминг, лемматизация и другие).

Formed competencies

Способен проводить научно-исследовательские и опытно-конструкторские разработки по отдельным разделам темы (ПКС-1)

Education directions

Преподаватель отвечает на вопросы на форуме.

Бондаренко Иван Юрьевич


Position: старший преподаватель кафедры фундаментальной и прикладной лингвистики Гуманитарного института НГУ

course completion certificate

Certificate

It is possible to get a certificate for this course.

The cost of passing the procedures for assessing learning outcomes with personal identification - 3600 Р.

Similar courses