Публикации по теме 'nlp'


Прогнозирование субреддита «Tinder» с помощью обработки естественного языка в Python
«Проведите вправо, верно?» Заявление о проблеме В моем третьем крупномасштабном проекте с дистанционным интенсивом General Assembly's Data Science: я хотел работать с обработкой естественного языка. Представляя себя представителем компании Match (владеющей Tinder и связанными с ним приложениями для знакомств), я хотел узнать, насколько похожи истории Tinder и Tinder в субреддитах. Я хотел очень четко сформулировать свою задачу и цели для этого проекта: может ли логистическая..

Нет, не обязательно, чтобы все чат-боты были основаны на искусственном интеллекте.
Нет, не обязательно, чтобы все чат-боты были основаны на искусственном интеллекте. Чат-боты на основе ИИ находятся в ажиотаже. Истинный. Не отрицая факта, но разве так и должно быть. Это решает (или решит) множество проблем. Так что вы не думаете, что это заслуживает хотя бы некоторого внимания средств массовой информации. Люди изо всех сил пытаются пройти тест Тьюринга по очевидным причинам, упомянутым в посте. Открытие без трения: имеет смысл. Но что, если пользователь согласится..

Простая проверка пола для польского языка на Python (1)
Это первая из многих будущих частей, документирующих мою работу над этим проектом. Сегодня я завершил первую базовую версию простого средства проверки пола для существительных в польском языке на Python. Поскольку мне удалось описать некоторые из основных ограничений, которые помогут программе сразу распознать, является ли слово, вставленное пользователем, женским, средним или мужским родом в польском языке, я понял, что это только начало пути. Как известно любому изучающему..

Текстовая кластеризация, обобщение и визуализация
Анализ кластеризации текста обычно включает в себя процесс интеллектуального анализа текста для преобразования текста в структурированные данные для анализа с помощью обработки естественного языка (NLP) и аналитических методов. В этом посте описан процесс классификации и визуализации значимого текстового содержания проектов Европейского Союза по тематическим кластерам. Шаги, необходимые для этого процесса: Определение проблем и определение текста для сбора. Предварительная..

Классификация текста с помощью CNN и LSTM
В этом блоге мы будем использовать набор данных Yelp-round 10 review , чтобы узнать, является ли отзыв положительным или отрицательным. Данные выглядят так: Проще говоря, мы классифицируем отзыв как положительный, если он имеет более 3 звезд, и отрицательный, если он имеет меньше или равно 3 звезд. Следовательно, это Контролируемая задача. Чтобы построить и обучить модель, мы сначала очищаем текст и преобразуем его в последовательности. Каждый комментарий к обзору имеет ограничение..

Межъязычный перевод Zero Shot с многоязычным BERT
Тонкая настройка BERT для встраивания предложений в английские наборы данных NLI (Это переиздание этой статьи в моем личном блоге .) Синопсис Вы хотите встраивать многоязычные предложения, но у вас есть набор обучающих данных только на английском языке? В этой публикации представлен эксперимент по настройке предварительно обученной многоязычной модели BERT («BERT-Base, Multilingual Uncased» [1] [2]) на одноязычном (английском) AllNLI набор данных [4] для создания модели..

Быстрое обучение с использованием SBERT
Введение «Если набор данных действительно мал, оба метода ниже (Bert и SBERT) могут дать не очень хорошие результаты, это зависит исключительно от контекста документа. Если документы уже похожи друг на друга, тогда будет сложно определить разницу между ними. Представьте себе задачу, в которой нам нужно построить классификацию только с одним или двумя образцами для каждого класса, и каждый образец найти очень сложно ». В этой статье мы собираемся реализовать классификацию документов..