Публикации по теме 'nlp'
Создайте рекомендательную систему за 10 минут с помощью python
Цель:
Цель этого проекта — создать систему рекомендаций фильмов, используя функции, похожие на разные фильмы, например. жанр и др.
Этот проект будет разделен на 3 раздела
Загрузка набора данных Очистка и предварительная обработка данных Создание системы рекомендаций
NB: все коды и ресурсы можно найти на моем GitHub
Загрузка набора данных
Набор данных содержит словари, поэтому мы импортируем библиотеку json, популярную для работы со словарными объектами, и панд,..
NExT-GPT: мультимодальный LLM «любой к любому»
NExT-GPT — это мультимодальная модель большого языка (MM-LLM), разработанная лабораторией NExT++ Национального университета Сингапура и представленная в исследовательской статье под названием «NExT-GPT: Any-to-Any Multimodal LLM». Благодаря замечательному прогрессу больших языковых моделей мы можем предоставить LLM тестовое приглашение, чтобы получить в ответ содержательный ответ.
Однако, как люди, мы привыкли общаться, используя несколько чувств. Таким образом, чтобы иметь более..
Ландшафт модели большого языка
Ландшафт модели большого языка
Количество коммерческих и открытых провайдеров LLM резко возросло за последние 2 года, и теперь есть много вариантов на выбор для всех типов языковых задач. И хотя основным способом взаимодействия с LLM по-прежнему являются API и рудиментарные игровые площадки, я ожидаю, что экосистема инструментов, которая поможет ускорить их широкое внедрение, станет растущим рынком в ближайшем будущем.
Ниже приведена диаграмма, показывающая текущий ландшафт..
Обучите лонгформер обнаруживать новостной контент HyperPartisan
Делать крутые вещи с данными
Введение
Гиперпартийные новости описываются как новости, которые крайне предвзято относятся к одной политической партии. Это может быть крайний левый или крайний правый. К сожалению, сейчас в США наблюдается сильная политическая поляризация. Людям нравятся только политики и взгляды, разделяемые членами их группы. Недавние беспорядки у Капитолия США обнажили этот растущий разрыв между либеральными и консервативными избирателями. Этот политический..
Тематическое моделирование с использованием LDA
Тематическое моделирование с использованием LDA
Тематическое моделирование при обработке естественного языка - это метод, который назначает тему данному корпусу на основе присутствующих слов. Тематическое моделирование важно, потому что в этом мире, полном данных, категоризация документов становится все более важной. Например, компания получает сотни отзывов, тогда компании важно знать, какие категории отзывов важнее, и наоборот.
В этой статье мы увидим следующее:
LDA..
Сжатие BERT
По сценарию Минхуэй Чжана и Чжэ Вана
Проблема сжатия моделей глубокого обучения хорошо известна в машинном обучении. Ключевой момент, стоящий за этим вопросом, заключается в следующем: как мы можем уменьшить размер модели, сохранив при этом возможности модели? BERT, как важная модель в области НЛП, демонстрирует значительное улучшение во многих задачах НЛП. Использование этой большой модели в производственных средах — сложная задача, требующая большого объема вычислений, памяти и..
Визуализация слов
PCA и кластеризация в Python
В этом посте я покажу, как использовать несколько техник НЛП для преобразования слов в математические представления и изобразить их в виде точек, а также приведу несколько примеров. График ниже был создан на основе вики Звездных войн Вукипедия и раскрашен алгоритмом кластеризации.
Координаты слов создаются из вложений слов ( векторов слов ), которые создаются на основе контекстов, в которых встречается каждое слово. Векторы имеют свойства, связанные..