Публикации по теме 'nlp'


Создайте рекомендательную систему за 10 минут с помощью python
Цель: Цель этого проекта — создать систему рекомендаций фильмов, используя функции, похожие на разные фильмы, например. жанр и др. Этот проект будет разделен на 3 раздела Загрузка набора данных Очистка и предварительная обработка данных Создание системы рекомендаций NB: все коды и ресурсы можно найти на моем GitHub Загрузка набора данных Набор данных содержит словари, поэтому мы импортируем библиотеку json, популярную для работы со словарными объектами, и панд,..

NExT-GPT: мультимодальный LLM «любой к любому»
NExT-GPT — это мультимодальная модель большого языка (MM-LLM), разработанная лабораторией NExT++ Национального университета Сингапура и представленная в исследовательской статье под названием «NExT-GPT: Any-to-Any Multimodal LLM». Благодаря замечательному прогрессу больших языковых моделей мы можем предоставить LLM тестовое приглашение, чтобы получить в ответ содержательный ответ. Однако, как люди, мы привыкли общаться, используя несколько чувств. Таким образом, чтобы иметь более..

Ландшафт модели большого языка
Ландшафт модели большого языка Количество коммерческих и открытых провайдеров LLM резко возросло за последние 2 года, и теперь есть много вариантов на выбор для всех типов языковых задач. И хотя основным способом взаимодействия с LLM по-прежнему являются API и рудиментарные игровые площадки, я ожидаю, что экосистема инструментов, которая поможет ускорить их широкое внедрение, станет растущим рынком в ближайшем будущем. Ниже приведена диаграмма, показывающая текущий ландшафт..

Обучите лонгформер обнаруживать новостной контент HyperPartisan
Делать крутые вещи с данными Введение Гиперпартийные новости описываются как новости, которые крайне предвзято относятся к одной политической партии. Это может быть крайний левый или крайний правый. К сожалению, сейчас в США наблюдается сильная политическая поляризация. Людям нравятся только политики и взгляды, разделяемые членами их группы. Недавние беспорядки у Капитолия США обнажили этот растущий разрыв между либеральными и консервативными избирателями. Этот политический..

Тематическое моделирование с использованием LDA
Тематическое моделирование с использованием LDA Тематическое моделирование при обработке естественного языка - это метод, который назначает тему данному корпусу на основе присутствующих слов. Тематическое моделирование важно, потому что в этом мире, полном данных, категоризация документов становится все более важной. Например, компания получает сотни отзывов, тогда компании важно знать, какие категории отзывов важнее, и наоборот. В этой статье мы увидим следующее: LDA..

Сжатие BERT
По сценарию Минхуэй Чжана и Чжэ Вана Проблема сжатия моделей глубокого обучения хорошо известна в машинном обучении. Ключевой момент, стоящий за этим вопросом, заключается в следующем: как мы можем уменьшить размер модели, сохранив при этом возможности модели? BERT, как важная модель в области НЛП, демонстрирует значительное улучшение во многих задачах НЛП. Использование этой большой модели в производственных средах — сложная задача, требующая большого объема вычислений, памяти и..

Визуализация слов
PCA и кластеризация в Python В этом посте я покажу, как использовать несколько техник НЛП для преобразования слов в математические представления и изобразить их в виде точек, а также приведу несколько примеров. График ниже был создан на основе вики Звездных войн Вукипедия и раскрашен алгоритмом кластеризации. Координаты слов создаются из вложений слов ( векторов слов ), которые создаются на основе контекстов, в которых встречается каждое слово. Векторы имеют свойства, связанные..