Еще до поверхностного успеха ChatGPT от OpenAI многие технологические компании постоянно разрабатывали свои собственные большие языковые модели (LLM) для генерации текста. Замечательные успехи были достигнуты с помощью связанных технологий, особенно когда речь идет о механизмах модели.

Различные LLM имеют разные характеристики. Хотя их состав, производительность и размеры могут различаться, когда речь идет о поддерживаемых языках или размерах данных, их конечные цели имеют общую нить: предлагать ценности группе конечных пользователей.

Между тем, ни один LLM не предлагает универсального решения для всех потребностей конечного пользователя. Ненадежность, которая не соответствует его кажущейся умности, была постоянной проблемой для генеративных ИИ, доступных до сих пор. Можно ли создать базовую LLM, которая может давать как достоверную информацию, так и творческие результаты? Если да, то как мы можем этого достичь? (Примечание. В этой статье основное внимание уделяется текстовому аспекту. Термины "LLM" и "генеративный ИИ" используются как синонимы.)

Что такое большая языковая модель (LLM)?

Большая языковая модель относится к массивной структуре языковых данных, которая работает по определенному алгоритму (модели), который позволяет обрабатывать, прогнозировать и генерировать текст. У каждой компании, разрабатывающей модель, есть свои уникальные рецепты, а также состав данных.

Производительность LLM часто определяется размером параметров. Параметр относится к значению, при котором модель может диверсифицировать свои выходные данные и более эффективно обрабатывать входные данные. Количество параметров пропорционально размеру текстовых данных, на которых обучаются LLM; чем больше набор текстовых данных, тем выше параметры, которые могут обрабатывать модели.

Некоторые LLM, чтобы масштабировать эти параметры для обучения, используют массивную информацию в качестве исходного набора данных для обучения без присмотра. Например, эти наборы данных могли быть выдраны из Интернета. LLM, которые были обучены с использованием этого метода, могут производить вывод, подобный человеческому, исключительно за счет огромного количества текста, созданного человеком, который он выучил.

Однако не вся информация, доступная во всемирной паутине, является фактической или информативной. Как гласит популярная поговорка в области машинного обучения «мусор на входе, мусор на выходе», упомянутый выше метод обучения частично также ограничивает модель. Результирующая модель также остается с параметрами, которые содержат предвзятую, вредную или совершенно неверную информацию, которая может нанести ущерб опыту конечного пользователя.

Чтобы противостоять этому, LLM можно модифицировать и обучать конкретным случаям использования путем тонкой настройки. Одним из таких примеров является популярный ChatGPT. Он был обучен с помощью контролируемого метода тонкой настройки под названием «Обучение с подкреплением на основе отзывов человека или RLHF, в котором участвуют люди, которые активно обучают модель правильно отвечать. Другой вопрос, смогут ли относительно поверхностные процедуры, такие как тонкая настройка, полностью заблокировать бесполезные ответы, коренящиеся в фундаментальном составе модели.

Варианты использования для «творческой» генерации текста с помощью LLM

Одним из самых больших преимуществ для LLM, обученных на массивных наборах текстовых данных, является их способность давать естественные результаты. В частности, конечные пользователи могут использовать такие генеративные ИИ для широких областей, не требующих тщательной проверки фактов.



Художественный контент, разнообразные жанры произведений, интернет-мемы и разговорные разговоры могут усилить способность ИИ реагировать на такие случаи использования, когда пользователи ищут первоначальное вдохновение, разнообразные и творческие результаты.

Некоторые из преимуществ, предлагаемых конечным пользователям генеративными ИИ, ориентированными на творческие варианты использования, включают:

  • Вдохновение для пользователей, которые ищут случайные информативные ссылки, чтобы начать свои предполагаемые действия.
  • Общение для пользователей, которые ищут кого-то (или что-то) для общения
  • Эффективность для пользователей, которым необходимо преобразовать длинные блоки информации в более удобоваримые версии.
  • Развлечение для пользователей, увлеченных концепцией ИИ в целом.

Благодаря тонкой настройке эти значения могут быть адаптированы к различным областям и отраслям, где конечными пользователями могут быть художники, компьютерщики, маркетологи, преподаватели и другие. Хотя на него нельзя полностью положиться сам по себе, он может служить хорошим подспорьем для пользователей, если пользователи готовы проверить их, используя другие надежные ресурсы.

Какие подходы доступны для «точного» генеративного ИИ?

Чтобы ИИ мог предлагать больше, чем просто вдохновение, он должен предоставлять достоверную информацию.

Указание использования домена

Подход к созданию точного генеративного ИИ для конечных пользователей заключается в его точной настройке в четко определенной области использования. Ориентация на определенный сегмент пользователей позволяет поставить реалистичную цель сбора и применения данных. Убедившись, что набор данных содержит исчерпывающую фактическую информацию по конкретному вопросу, можно снизить риск галлюцинаций, вызванных отсутствием или несоответствием информации.

Уточнение предполагаемой цели продукта, созданного на основе LLM, позволит пользователям четко понять ограничения модели, даже если LLM был обучен на данных, которые не были должным образом оценены или отфильтрованы.

Тщательная доводка

Другим вариантом может быть тонкая настройка модели до такой степени, что она может отказываться отвечать на подсказки, на которые она не может дать точных ответов.

Однако нельзя упускать из виду, что ответы генеративного ИИ не основаны на его активном осведомлении о фактах. Галлюцинации и фактические ошибки основаны на множестве факторов, включая зашумленные точки данных и даже принудительное обучение.

Использование или создание LLM, обученных исключительно фактической информации

Некоторые сервисы генеративного ИИ используют другой подход к обучению больших языковых моделей. Чтобы решить проблему небезопасных ответов, некоторые компании, стремящиеся разработать точные генеративные ИИ, полагаются на тщательно отобранные наборы данных из надежных источников, таких как академические журналы или проверенные базы данных. Они также могут использовать такие методы, как обработка естественного языка, чтобы отфильтровать неточную информацию из своих обучающих данных.

Например, стартап по генеративному искусственному интеллекту Writer разрабатывает свою собственную большую языковую модель с архитектурой кодировщик-декодер, предназначенной для того, чтобы точность превыше творчества. Помимо архитектурного уровня, стартап упоминает о важности данных, гарантируя, что для обучения LLM используются только точные, реальные данные. В зависимости от цели использования генеративного ИИ можно активно выбирать такой дизайн модели, который фокусируется на точности, а не на творчестве.

Переход к подходу, ориентированному на данные

Варианты использования этих текстовых генеративных ИИ почти безграничны. Их адаптации предлагаются в качестве продукта для повышения эффективности рабочего места в различных областях, таких как маркетинг, юриспруденция, информатика и даже образование. Некоторые из них демонстрируют исключительные способности предлагать творческие результаты, и фактор развлечения определенно был неотъемлемой частью их широкого успеха у широкой публики.

Впечатляющий потенциал стал возможен благодаря постоянному модельно-ориентированному подходу к генеративной технологии искусственного интеллекта. LLM были разработаны для достижения заметных успехов, когда речь идет об архитектуре моделей, особенно после трансформаторов.

Между тем, существует несоответствие в уровне достижений, которое может быть решено только на уровне данных. Многие из проблем, которые мешают генеративному ИИ быть надежным, включая галлюцинации и проблематичный тон и манеру, можно решить, вводя правильные данные и продолжая хорошее обслуживание модели, чтобы избежать устаревания.

Помимо развлечения, безопасность использования также должна быть тщательно продумана при развертывании или адаптации искусственного интеллекта. Для этого пора более активно обсуждать продвижение датацентричного подхода для разработки искусственного интеллекта.