Профессиональная конференция для IT-специалистов реального сектора

Мастер-класс. Создание вопрос-ответного чат-бота на базе RAG и YandexGPT

ML и AI в производственных компаниях

Фронтенд / другое
API
Продуктовая разработка
Рекомендации / ML
ML

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Разработчики приложений, bakend/frontend/mobile

Тезисы

В последнее время, с появлением больших языковых разговорных моделей (Large Language Models, LLM), таких, как Yandex GPT, актуальным становится вопрос создания предметно-ориентированных чат-ботов, т.е. таких разговорных чат-ботов, которые способны поддерживать беседу в рамках какой-то узкой предметной области.

Такие чат-боты могут быть реализованы двумя путями:

1. Дообучение разговорной модели — это, как правило, требует значительных вычислительных мощностей, усилий и опыта, и при этом любые изменения в предметной области требуют переобучения модели.

2. Retrieval-Augmented Generation (RAG) — подход, при котором ответ чат-бота формируется стандартной предобученной LLM-моделью, но предварительно ей показывают фрагменты текста из предметно-ориентированной базы знаний, найденные с помощью семантического поиска.

В рамках данного мастер-класса мы попробуем оба подхода, но в основном сконцентрируемся на создании вопрос-ответного чат-бота с помощью подхода Retrieval-Augmented Generation. Мы также используем Yandex SpeechKit для извлечения текста из набора видео-файлов. Для реализации бота мы организуем векторное хранилище и индексацию с помощью текстовых эмбеддингов YandexGPT и фреймворка LangChain.

Дмитрий Сошников

к.ф.-м.н., доцент МАИ, НИУ ВШЭ, МФТИ

Ветеран Microsoft, проработал в компании более 16 лет. Как технологический евангелист участвовал во множестве конференций и мероприятий, дважды оказывался на одной сцене со Стивом Баллмером и Алексеем Пажитновым, встречался с Биллом Гейтсом. В течение 2 лет он был ведущим экспертом по машинному обучению и искусственному интеллекту, помогая крупным европейским компаниям создавать пилотные проекты цифровой трансформации на основе данных. Последние годы как Cloud Developer Advocate Дмитрий участвовал в создании обучающих материалов для Microsoft Learn, а также работал с университетами и исследовательскими лабораториями в университетах Карнеги-Меллона, Беркли, Imperial College London и др. Основной автор курса Microsoft AI for Beginners Curriculum.

В настоящий момент Дмитрий является доцентом МАИ, НИУ ВШЭ и МФТИ, читает курсы «Искусственный интеллект» и «Функциональное и логическое программирование». Будучи большим фанатом F#, он является автором первой русскоязычной книги по этому языку. Он также разрабатывает библиотеку mPyPl, позволяющую разработчикам на Python использовать функциональный стиль в задачах обработки данных и глубокого обучения.

Дмитрий интересуется технологическим искусством, является техническим руководителем лаборатории ИИ в Школе дизайна НИУ ВШЭ, внедряя в практику школы инструменты на основе открытых генеративных нейросетей. Его работы в области Science Art выставлялись в галерее Краснохолмская, на выставке Non-Fiction, в Электромузее, в музее русского импрессионизма.

к.ф.-м.н., доцент МАИ, НИУ ВШЭ, МФТИ

к.ф.-м.н., доцент МАИ, НИУ ВШЭ, МФТИ

Видео

Подготовительное задание
https://github.com/yandex-datasphere/yatalks-potter-bot

Другие доклады секции

ML и AI в производственных компаниях