Взять проводника: зачем нужны инструменты взаимодействия с нейросетями
Импульс к появлению ИИ-помощников
Появление ChatGPT стало значимым событием, которое обещает радикальные изменения в решении как повседневных, так и бизнес-задач. Но вместе с новыми возможностями пользователи столкнулись с целым рядом ограничений большой языковой модели (Large Language Model, LLM). Основные из них.
Ограничение окна контекста
ChatGPT и другие нейросети работают таким образом, что после выполнения задачи и предоставления ответа они «забывают» всю предыдущую информацию. Каждый раз, когда вы взаимодействуете с моделью, она видит только текущий контекст общения и историю последних сообщений, ограниченных размером так называемого «окна контекста».
Окно контекста ограничивает количество информации, которое может быть передано модели за один раз. Например, у GPT-3.5 это окно составляет 4000 токенов, а у GPT-4 — 8000. В контексте ИИ-модели токены представляют отдельные слова или фрагменты текста, а их количество зависит от сложности модели, объема данных, алгоритмов обучения и специфики задачи. Иногда большие модели могут иметь меньше токенов, потому что разработчики используют более эффективные алгоритмы и улучшенные методы обучения, которые позволяют модели достичь высокой точности при обработке текста. Но в моделях, которыми люди пользуются сегодня, ограничение токенов создает проблемы при работе с большим объемом данных и делает невозможным получение больших текстов.
Производительность моделей
В текстовом чате задержка в ответах может быть приемлемой, но для голосового общения или обработки запросов в реальном времени требуется более высокая скорость работы.
Ограничения по типам данных
Большие языковые модели имеют ограничения по типам данных, с которыми они могут работать: ChatGPT не может сгенерировать вам картинку, а Midjorney — предоставить красивое описание готового изображения. И в целом на практике вы работаете с разными форматами документов: таблицы, презентации, тексты. Несмотря на то, что появляются мультимодальные модели, способные обрабатывать различные типы информации, в основном они еще малодоступны, и пользователи сталкиваются с проблемами при работе с различными форматами файлов.
Все эти ограничения не делают использование LLM невозможным, но требуют осознанного подхода к их применению. Многие пользователи уже активно осваивают один из таких подходов — промт-инжиниринг, систему принципов составления грамотных запросов для нейросети для получения качественного результата. Автоматизировать же решение прикладных задач, а также сделать процесс взаимодействия более продуктивным могут CoPilot и агенты на основе фреймворка LangChain.
CoPilot
CoPilot, или, как мы еще его называем, второй пилот, — это среда для работы AI-приложений, благодаря которым люди решают прикладные задачи. Вариантов таких приложений может быть очень много: копирайт текста, мгновенное написание SEO-статьи и генерация мета-тегов для маркетинга, подготовка презентаций и коммерческих предложений для отдела продаж, ускоренное создание типовых договоров для юристов, анализ CV для HR, выявление ошибок в коде для программистов и т. д. Под капотом каждого инструмента находится одна или несколько нейросетей, заточенных под одну из описанных выше задач.
Например, нам нужно получить саммари по итогам долгого онлайн-собрания. Сначала из видео нужно извлечь аудиодорожку, отправить ее на распознавание (желательно еще и дообучив модель распознавания специфичной для данного бизнеса терминологии), далее извлечь текст, разбить его на части в соответствии с окном контекста, сохранив при этом ключевые выводы из каждого фрагмента, собрать все вместе в определенном формате с помощью последовательности промптов к ChatGPT, и только после этого мы получаем готовый follow-up встречи. Всех этих манипуляций можно избежать, используя специального AI-помощника, заранее настроенного на решение именно этой задачи.
Для эффективной работы CoPilot использует множество различных технологий: большие языковые модели, системы распознавания и синтеза речи, генерации изображений, векторизации, индексации и поиска по большим массивам данных, конвертации данных в разные форматы и многие другие инструменты. Они позволяют решать разнообразные задачи, не прибегая к помощи дополнительных сервисов.
Еще одна ценность CoPilot заключается в том, что больше не нужно тратить время на написание промта, все шаблоны уже есть внутри. Just AI и другие компании, которые занимаются развитием ИИ-технологий, устанавливают ИИ-ассистентов в контур под конкретные нужды бизнеса и создают отдельных помощников под специфические задачи. Таким образом, ИИ-помощник может извлекать информацию из внутренних систем и быть более эффективным. Отличным примером является CoPilot от Microsoft, представленный пару месяцев назад. Инструмент интегрируется в Microsoft 365 и работает со всеми приложениями: Word, Excel, PowerPoint, Outlook, Teams и т. д. Благодаря доступу ко всему рабочему контенту сотрудника — от электронных писем до записей встреч в Teams — CoPilot может помочь сделать презентацию на основе обсуждений с коллегами или подготовить черновик отчета в Word, отталкиваясь от данных в таблице Excel.
Внедряя подобные технологии, важно помочь сотрудникам освоить базовые принципы работы с инструментами, создать у них мотивацию для поиска и экспериментов, а также построить процесс анализа применений и последующей автоматизации выявленных возможностей. Это даст организации возможность повышения эффективности по принципу bottom-up — от каждого сотрудника до организации и ее процессов в целом.
LangChain
Появление фреймворка LangChain стало шагом к очень умным системам. Он предлагает набор инструментов, компонентов и интерфейсов, которые упрощают процесс создания приложений на основе больших языковых моделей (LLM), в частности, ChatGPT. LangChain напоминает конструктор Lego — объединяя нужные детали и привлекая дополнительные ресурсы типа API или базы данных, можно создать универсального ИИ-агента.
Важными компонентами LangChain являются шаблоны подсказок, которые преобразовывают пользовательский ввод в формат, подходящий для языковой модели, память, которая отвечает за сохранение всех взаимодействий в чате, а также агенты, принимающие решение о том, какой инструмент вызвать на основе запроса пользователя.
В отличие от CoPilot, который нужно запрограммировать на решение определенной задачи, ИИ-агент получает от пользователя описание цели (например, «организуй мне поездку на конференцию по ИИ в Москве в следующем месяце»), самостоятельно формулирует последовательность шагов для ее достижения и создает цепочку вызовов в разные источники и внешние сервисы. Агент может работать автономно без участия человека, потому что ему не нужны подсказки, как ChatGPT. Например, человек просит нарисовать несколько вариантов обложки для подкаста и отправить их клиенту. Агент понимает, что для этого ему нужно активировать и передать запрос в Midjourney, направить обложки «хозяину» задачи, после согласования пойти в CRM-систему за почтовым адресом клиента, написать сопроводительный текст письма с помощью ChatGPT и, наконец, отправить все необходимое адресату.
Отдельные инструменты применяются для работы с большими массивами данных, ответов на вопросы по базам знаний или суммаризации больших документов. Они основаны, в частности, на основе технологий индексации и векторизации. Большой массив данных разбивается на части, преобразуется в векторное пространство для упрощения поиска, после чего сохраняется индекс источников данных. Когда пользователь вводит вопрос или текст, система находит все соответствующие документы, а затем передает эти данные в большую языковую модель для выбора наиболее подходящего ответа. Такой подход используется, например, в поисковой системе Microsoft Bing.
Важно отметить, что каждую неделю появляются новые opensource-библиотеки, фреймворки и подходы к решению задач, что делает системы ИИ все более функциональными и пригодными для использования в практической деятельности и бизнесе.
Безопасность в контуре
Обеспечение безопасности в инструментах взаимодействия с нейросетями, таких как AgentGPT и CoPilot, является важным аспектом и требует соответствующих мер. Весной этого года из-за отсутствия контроля использования ChatGPT на рабочих местах в сеть утекли конфиденциальные данные компании Samsung. Сейчас техногигант пересматривает меры по созданию безопасной среды для безопасного использования генеративного ИИ для повышения производительности сотрудников.
К основным способам обеспечения безопасности можно отнести модерацию контента, предотвращающую передачу конфиденциальных данных в нейросеть, грамотное обучение модели для уменьшения вероятности генерации ложной информации, мониторинг активности пользователей для предотвращения небезопасного поведения, а также регулярное обновление инструментов для выявления уязвимостей.
Несмотря на существующие ограничения больших языковых моделей, активное развитие технологий и появление новых инструментов позволяют преодолевать эти ограничения и делают эти системы все более привлекательными для использования в бизнесе и повседневной жизни. Внедрение нейросетевых моделей в бизнес-процессы позволяет компаниям улучшить эффективность работы, ускорить процесс принятия решений, а также повысить уровень обслуживания клиентов. Сегодня уже можно говорить о том, что большие языковые модели и AI-приложения становятся неотъемлемой частью современного бизнеса.
Мнение редакции может не совпадать с точкой зрения автора