Мастер-класс. Создание вопрос-ответного чат-бота на базе RAG и YandexGPT
Доклад отклонён
Целевая аудитория
Тезисы
В последнее время, с появлением больших языковых разговорных моделей (Large Language Models, LLM), таких, как Yandex GPT, актуальным становится вопрос создания предметно-ориентированных чат-ботов, т.е. таких разговорных чат-ботов, которые способны поддерживать беседу в рамках какой-то узкой предметной области.
Такие чат-боты могут быть реализованы двумя путями:
1. Дообучение разговорной модели — это, как правило, требует значительных вычислительных мощностей, усилий и опыта, и при этом любые изменения в предметной области требуют переобучения модели.
2. Retrieval-Augmented Generation (RAG) — подход, при котором ответ чат-бота формируется стандартной предобученной LLM-моделью, но предварительно ей показывают фрагменты текста из предметно-ориентированной базы знаний, найденные с помощью семантического поиска.
В рамках данного мастер-класса мы попробуем оба подхода, но в основном сконцентрируемся на создании вопрос-ответного чат-бота с помощью подхода Retrieval-Augmented Generation. Мы также используем Yandex SpeechKit для извлечения текста из набора видео-файлов. Для реализации бота мы организуем векторное хранилище и индексацию с помощью текстовых эмбеддингов YandexGPT и фреймворка LangChain.
Ветеран Microsoft, проработал в компании более 16 лет. Как технологический евангелист участвовал во множестве конференций и мероприятий, дважды оказывался на одной сцене со Стивом Баллмером и Алексеем Пажитновым, встречался с Биллом Гейтсом. В течение 2 лет он был ведущим экспертом по машинному обучению и искусственному интеллекту, помогая крупным европейским компаниям создавать пилотные проекты цифровой трансформации на основе данных. Последние годы как Cloud Developer Advocate Дмитрий участвовал в создании обучающих материалов для Microsoft Learn, а также работал с университетами и исследовательскими лабораториями в университетах Карнеги-Меллона, Беркли, Imperial College London и др. Основной автор курса Microsoft AI for Beginners Curriculum.
В настоящий момент Дмитрий является доцентом МАИ, НИУ ВШЭ и МФТИ, читает курсы «Искусственный интеллект» и «Функциональное и логическое программирование». Будучи большим фанатом F#, он является автором первой русскоязычной книги по этому языку. Он также разрабатывает библиотеку mPyPl, позволяющую разработчикам на Python использовать функциональный стиль в задачах обработки данных и глубокого обучения.
Дмитрий интересуется технологическим искусством, является техническим руководителем лаборатории ИИ в Школе дизайна НИУ ВШЭ, внедряя в практику школы инструменты на основе открытых генеративных нейросетей. Его работы в области Science Art выставлялись в галерее Краснохолмская, на выставке Non-Fiction, в Электромузее, в музее русского импрессионизма.
Видео
Другие доклады секции
ML и AI в производственных компаниях