Openedu.ru

Русский
язык курса
10 недель
длительность курса
от 2 до 3 часов в неделю
понадобится для освоения
2 зачётных единицы
для зачета в своем вузе

Из онлайн-курса «Методы и алгоритмы компьютерной лингвистики» вы узнаете об основных методах “классического” машинного обучения, научитесь решать задачи классификации текстов (в частности, задачу анализа тональности высказывания), морфологического анализа, распознавания именованных сущностей с использованием методов машинного обучения. Также вы овладеете техникой разработки компьютерных моделей машинного обучения на языке программирования Python

О курсе

Онлайн-курс предназначен для студентов математических, гуманитарных и IT-специальностей. А также для проджект-менеджеров, IT-специалистов и для всех, кто владеет основами программирования на Python. Из курса вы узнаете, что такое разговорный искусственный интеллект и на чём он основан. Научитесь различным методам машинного обучения, которые используются для анализа текстов, и отработаете все полученные знания на практических занятиях. В курсе рассказывается о видах машинного обучения: обучение с учителем, обучение без учителя, обучение с подкреплением, о задачах классификации и регрессии. О том, как передать текст компьютер, о признаковом описании объекта. Научитесь проводить лингвистический анализ текста (токенизация, стемминг, лемматизация и другие). Узнаете о логистической регрессии, “деревьях” решений.

Автор курса — старший преподаватель кафедры фундаментальной и прикладной лингвистики Гуманитарного института НГУ, победитель научного соревновании Shifts Challenge-2021 на лучший алгоритм ИИ, способный работать в условиях «сдвига» данных, Иван Бондаренко

Формат

Курс состоит из 10 недель обучения.

Образовательные активности каждой недели включают:

Просмотр видеолекций
Отработка полученных знаний на практических занятий
Выполнение оцениваемого теста по итогам недели

Кроме того, студенты должны пройти итоговый тест по материалам всего курса для получения итоговой оценки

Информационные ресурсы

Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб.пособие— М.: МИЭМ, 2011. — 272 с. URL: http://elib.nsu.ru/dsweb/Get/Resource-1583/page001.pdf.
Батура Т.В. Математическая лингвистика и автоматическая обработка текстов на естественном языке : учебное пособие : [для студентов и аспирантов ФИТ, ММФ и ГФ (отделение фундаментальной и прикладной лингвистики) НГУ] / Т.В. Батура ; М-во образования и науки Рос. Федерации, Новосиб. гос. ун-т, Фак. информ. технологий, Каф. систем информатики .— Новосибирск: Редакционно-издательский центр НГУ, 2016 .— 165 с. : ил. ; 20 см. .— Библиогр. в конце глав .— URL: http://elib.nsu.ru/dsweb/Get/Resource-1583/page001.pdf.
Гладкий, Алексей Всеволодович. Элементы математической лингвистики / А. В. Гладкий, И. А. Мельчук. Москва: Наука, 1969. 192 с. (20 экземпляров)
Daniel Jurafsky, James H. Martin. "Speech and Language Processing". URL: https://web.stanford.edu/~jurafsky/slp3/
Маннинг К. Д., Рагхаван П., Шютце Х. «Введение в информационный поиск». Москва: Диалектика, 2020. 528 с.
Конференция «Диалог». URL: https://www.dialog-21.ru

Конференции под эгидой ACL (the Association for Computational Linguistics). URL: https://www.aclweb.org

Требования

Среднее общее образование или среднее специальное образование

Программа курса

Модуль 1. Что такое разговорный искусственный интеллект?

О чём этот курс?
Машинное обучение. Когда оно бывает вредным?
Виды машинного обучения
История развития искусственного интеллекта

Модуль 2. Умеет ли искусственный интеллект общаться?

Умеет ли искусственный интеллект общаться?
Как анализировать целые тексты?
Обучение с учителем. Классификация и регрессия

Модуль 3. Как передать текст компьютеру? Лингвистический аспект

Какие признаки бывают у объектов?
Стемминг: как отсекать лишнее?
Лемматизация: что делать с морфологическими омонимами?
Токенизация и лемматизация русских текстов с помощью библиотеки spaCy. Практическое занятие

Модуль 4. Как передать текст компьютеру? Статистический аспект

Ищем устойчивые сочетания слов. Статистика VS лингвистика
Выбор значимых элементов из «мешка слов» на основе критерия χ2
Векторизация текстов на основе TF-IDF и сокращение «мешка слов» на основе критерия χ2. Практическое занятие
Применение коллокатора для «умного» выявления наиболее частотных словосочетаний. Практическое занятие

Модуль 5. Как научить компьютер понимать тексты?

Методы обучения с учителем. Логистическая регрессия
Как обучать логистическую регрессию?
Что делать, если компьютер переучился?
Как оценить качество логистической регрессии?
Точность, полнота и F-мера для оценки качества классификации
Регуляризация и подбор гиперпараметров логистической регрессии
Применение библиотеки scikit-learn для анализа тональности твитов методом логистической регрессии. Практическое занятие
Оценка качества алгоритма классификации. Практическое занятие
Как улучшить качество классификатора? Практическое занятие
Как выбрать оптимальные гиперпараметры? Практическое занятие

Модуль 6. Как вырастить деревья решений?

Для чего нужны деревья решений?
Базовый алгоритм
Алгоритм ID3
Как бороться с переобучением деревьев?
Дискретизация количественных признаков
Выращиваем деревья решений для анализа тональности сообщений. Практическое занятие
Выращиваем деревья решений без ограничений по глубине. Практическое занятие

Модуль 7. Вместе мы сила! Равноправное голосование решающих алгоритмов

Теоретические основы ансамблирования
Бэггинг. Как повысить разнообразие алгоритмов в коллективе?
Бэггинг и дилемма смещения-разброса
Построение ансамбля алгоритмов для задачи анализа тональности сообщений. Практическое занятие
Использование бэггинга для логистической регрессии. Практическое занятие

Модуль 8. Вместе мы сила! Голосование с учётом компетентности

Бустинг
Градиентный бустинг
Градиентное усиление деревьев решений. Практическое занятие
Смесь экспертов
Многоярусное обобщение. Стекинг
Иерархический ансамбль. Стекинг. Практическое занятие

Модуль 9. Проблема объяснимости модели

Интерпретируемость машинного обучения
Значимость признаков на основе перестановок
Вектор Шепли
Значимость слов для классификации текстов: «белый ящик» и «черный ящик». Практическое занятие

Модуль 10. Проблема объяснимости корпуса текстов

Вероятностная тематическая модель
Вероятностный латентно-семантический анализ
Латентное размещение Дирихле
Использование вероятностных тематических моделей для анализа текстового корпуса. Практическое занятие
Подводим итоги

Результаты обучения

В результате освоения дисциплины слушатель должен:

знать основные методы машинного обучения;
уметь решать задачи классификации текстов, морфологического анализа, распознавания именнованных сущностей с использованием методов машинного обучения;
владеть техникой разработки компьютерных моделей машинного обучения на языке программирования Python
уметь объективно оценивать системы разговорного искусственного интеллекта;
уметь проводить лингвистический анализ текста (токенизация, стемминг, лемматизация и другие).