Публикации по теме 'transformers'


Механизм внимания в Трансформерах
Современные передовые языковые модели основаны на архитектуре преобразователя [1]. Архитектура преобразователя, в остальном ничем не отличающаяся от MLP (многослойный персептрон), опирается на механизм внимания. Внимание предоставляет сети возможность извлекать долгосрочные отношения в заданных последовательностях слов, что имеет решающее значение для понимания естественного языка. Прежде чем приступить к основному обсуждению, я кратко объясню встраивания слов. Для простоты я представлю «..

Дерегулирование китайских банков: от извлечения данных к анализу данных
Китай претерпел глубокие изменения в том, как работает его финансовый рынок и, в частности, банковская отрасль. В этой статье я опишу дерегулирование банковской системы Китая. В первой части будет подробно описана банковская отрасль Китая и методология получения данных, построения набора данных и расчета показателей дерегулирования. Эта статья была мотивирована двумя причинами. Прежде всего, мне нужно было включить дерегулирование в одну из моих последних статей о финансовом..

FP8: новый мощный инструмент глубокого обучения
Давайте совершим путешествие в область искусственного интеллекта, особенно глубокого обучения. Здесь у нас есть огромные структуры, называемые нейронными сетями, которые призваны имитировать работу человеческого мозга для выполнения задач от идентификации объекта на фотографии до перевода языков. 1. Почему важна эффективность: введение FP8 Глубокое обучение похоже на обучение ребенка. Мы даем этим сетям («ребенку») много информации, чтобы научить их. Но по мере того, как нейронные..

Как разработать модель предварительного обучения (TSFormer) для временных рядов?
В последнее время было предпринято множество попыток решения задач НЛП (обработка естественного языка), и в большинстве из них используется предварительно обученная модель. Канал задач НЛП — это в основном данные, созданные людьми, полные плодотворной и превосходной информации, которую почти можно считать единицей данных. В прогнозировании временных рядов мы можем чувствовать нехватку таких предварительно обученных моделей. Почему мы не можем использовать это преимущество во временных..

Помимо трансформеров с PyNeuraLogic
К ГЛУБОКОМУ РЕЛЯЦИОННОМУ ОБУЧЕНИЮ Помимо трансформеров с PyNeuraLogic Демонстрация возможностей нейросимволического программирования За последние несколько лет мы наблюдаем рост числа моделей на основе Transformer¹ с успешным применением во многих областях, таких как обработка естественного языка или компьютерное зрение. В этой статье мы рассмотрим краткий, объяснимый и расширяемый способ выражения моделей глубокого обучения, в частности преобразователей, в виде гибридной..

Запредельные требования к памяти для трансформеров
В этой статье мы рассмотрим требования к памяти Transformers и связанные с этим проблемы. Фон Архитектура Transformer привела в действие последние достижения в области обработки естественного языка (NLP), включая BERT , серию GPT . Для обучения этих чрезмерно параметризованных и требовательных к данным моделей требуются огромные объемы памяти и вычислительные ресурсы. GPT3 имеет параметры 175 млрд и обучается с помощью токенов 300 млрд. Новые исследования продолжают раздвигать..

Как использовать Transformer для классификации аудио
Как использовать трансформатор для классификации аудио Особое внимание к позиционному кодированию и экспериментам с ним. Преобразователь пришел для решения различных проблем в области NPL, в основном в задачах seq2seq, где RNN получают вычислительную неэффективность, когда последовательности становятся длинными [1] . В статье Внимание - это все, что вам нужно [1] представлена ​​новая архитектура под названием Transformer , которая следует схеме кодировщика-декодера...