Публикации по теме 'nlp'


Встраивание слов: Word2Vec — Skip-gram и CBOW
Что такое встраивание слов? Внедрение Word — это термин, используемый для описания числового представления текста. В предыдущей статье мы изучили некоторые основные методы векторизации текста, такие как Bag of Words, TF-IDF и т. д. Теперь давайте рассмотрим некоторые более продвинутые методы представления текста. Создание разреженного представления с использованием TF-IDF и других основных методов векторизации не имеет особого смысла, поскольку они не охватывают семантику и..

Помимо мешка слов: важность встраивания слов в современный НЛП
В последние годы обработка естественного языка (NLP) добилась огромного прогресса в разработке новых методов и алгоритмов для анализа и понимания текстовых данных. Одна из ключевых проблем НЛП заключается в том, как эффективно представить значение слов и их взаимосвязей таким образом, чтобы их могли использовать алгоритмы машинного обучения. Встраивание слов, популярный метод…

Как Гойек использует НЛП для обозначения мест выдачи в масштабе
Представляем CartoBERT, модель обработки естественного языка (NLP), разработанную командой Gojek по изучению картографических данных. Когда наши клиенты хотят использовать наши продукты для вызова пассажиров, такие как GoRide и GoCar, им предоставляются удобные, четко обозначенные пункты выдачи поблизости. Вот пример: Это избавляет клиентов от необходимости звонить водителю-партнеру и объяснять, где они находятся, какого цвета одежда и т. Д. Наши пункты выдачи предназначены для..

Механизм внимания в Трансформерах
Современные передовые языковые модели основаны на архитектуре преобразователя [1]. Архитектура преобразователя, в остальном ничем не отличающаяся от MLP (многослойный персептрон), опирается на механизм внимания. Внимание предоставляет сети возможность извлекать долгосрочные отношения в заданных последовательностях слов, что имеет решающее значение для понимания естественного языка. Прежде чем приступить к основному обсуждению, я кратко объясню встраивания слов. Для простоты я представлю «..

Проинструктируйте о тонкой настройке Falcon 7B с помощью LoRA
Введение В последние годы обработка естественного языка (NLP) значительно продвинулась вперед благодаря мощным моделям больших языков, таким как Falcon 7B. Falcon 7B — это современный LLM, основанный на архитектуре Transformer ( https://huggingface.co/blog/falcon ). В то время как Falcon 7B предлагает впечатляющую готовую производительность, тонкая настройка инструкций позволяет вам создать свой собственный LLM с учетом контекста и знаний о ваших данных. В этой статье мы..

PyAudioCensor: автоматическая цензура аудиофайлов в автономном режиме с использованием Vosk и Python.
Здесь вы узнаете, как провести цензуру аудиофайлов в автономном режиме с помощью Python без использования каких-либо API-интерфейсов распознавания речи в облаке. Во-первых, мы должны предоставить аудиофайл для цензуры. Затем мы выполняем автономное распознавание речи на аудио с помощью API Vosk. Таким образом, мы получим список слов с соответствующими временными метками. Теперь пользователь будет вводить слова для цензуры. Соответствующие временные метки этих слов обнаруживаются из..

Meta выпускает LLaMA: он тоже провалится?
Meta выпускает LLaMA, чтобы конкурировать с PaLM и Chinchilla. Постигнет ли его та же участь, что и Blenderbot и Galactica? Или в третий раз прелесть? Пипс! Давайте поговорим о технике! Возможно, в последнее время вы слышали весь ажиотаж о языковых моделях, разработанных такими громкими именами, как Microsoft, Google и OpenAI. Но давайте не будем забывать о Meta, материнской компании Facebook, которая все еще пытается заявить о себе. Сегодня (ну, вчера) они выпустили совершенно новый..