Публикации по теме 'text-classification'


Сохранение модели Sklearn в рассол
Сохранение модели и векторизатора как pickle Модуль pickle реализует двоичные протоколы для сериализации и десериализации структуры объекта Python. Обработка - это процесс, при котором иерархия объектов Python преобразуется в поток байтов, а распаковка - обратная операция, при которой поток байтов (из двоичного файла или байтового объекта ) преобразуется обратно в иерархию объектов. Травление (и распаковка) также известно как сериализация , сортировка или сплющивание..

Изучение тематического моделирования с использованием полу-контролируемого обучения (объяснение корреляции)
В современном мире цифровая трансформация проводится во всех отраслях, и аналитика, основанная на данных, находится в ее центре. Данные генерируются и собираются в различных формах каждую секунду, и все организации стремятся обеспечить полное представление своих данных, чтобы предоставлять аналитические данные в режиме реального времени, а также возможность предпринимать действия, основанные на данных. Сложной частью любого процесса, управляемого данными, является получение необходимой..

Классификация текста с помощью CNN и LSTM
В этом блоге мы будем использовать набор данных Yelp-round 10 review , чтобы узнать, является ли отзыв положительным или отрицательным. Данные выглядят так: Проще говоря, мы классифицируем отзыв как положительный, если он имеет более 3 звезд, и отрицательный, если он имеет меньше или равно 3 звезд. Следовательно, это Контролируемая задача. Чтобы построить и обучить модель, мы сначала очищаем текст и преобразуем его в последовательности. Каждый комментарий к обзору имеет ограничение..

Вопросы по теме 'text-classification'

svm - запутался в результате и баллах намного больше, чем +1 или -1
Я новичок в SVM. В моем проекте я использую SVM для классификации текстов. Набор данных представляет собой обзоры ноутбуков, и я делю их на два класса: «хороший обзор» и «плохой обзор». Я провел обучение, тестирование и классификацию, но есть...
1173 просмотров
schedule 03.06.2023

Прогнозирование классификаций с помощью наивного Байеса и работа с функциями/словами, не входящими в обучающий набор
Рассмотрим проблему классификации текста спама или не спама с помощью алгоритма наивного Байеса. Вопрос следующий: как вы делаете прогнозы о документе W =, если в этом наборе слов вы видите новое слово wordX, которое вообще не было замечено...
865 просмотров

Как я могу сравнить классификаторы в наборе данных с помощью любого t-теста?
Я хочу сравнить классификаторы наборов данных с помощью любого t-теста. мой вопрос здесь, что я должен использовать для этого сравнения. бывший. классификатор 1 Я построю столбец для точности, точности, полноты и т. д.; и то же самое для...
1299 просмотров

Перебирать каждую складку в операторе X_validation в Rapidminer?
Я выполняю задачу категоризации текста в Rapid miner, интегрируя Rapid miner в Java. Я использую 10-кратную перекрестную проверку (оператор x_validation). У меня есть требование получить доступ к образцам в тестовых/поездных сплитах в каждой сгибе?...
93 просмотров

Почему производительность моей SVM падает после масштабирования обучающих и тестовых данных?
Я использую scikit-learn для анализа настроений текста. Мои функции прямо сейчас — это просто подсчет частоты слов. Когда я делаю следующее, усредненная F-мера составляет около 59%: from sklearn import svm clf =...
2051 просмотров

Постройте модель SVM в классификации R-текста
Я использую модель SVM из e1017 в R. Я использовал SVM для интеллектуального анализа текста и классификации. Итак, мои данные - это dtm (матрица терминов документа, полученная из корпуса документов). Как я могу приступить к построению моей модели...
1853 просмотров

пакетная фильтрация weka StringToWordVector
Я пытаюсь использовать Weka для классификации текста. У меня есть два файла ARFF: Один для обучающего набора (пример строки в данных): "мышь", нет, нет, нет, нет, нет, да, нет и еще один для тестового набора (пример строки в данных:)...
563 просмотров
schedule 21.01.2023

В каком порядке .find() возвращает документы MongoDB?
Мне было интересно, существует ли какой-то определенный «порядок», в котором документы MongoDB возвращаются при таком запросе: collection.find() Всегда ли это одно и то же, учитывая, что коллекция не меняется? Есть ли в MongoDB какой-то...
626 просмотров

Категоризация текста KNN в Matlab
Я делаю свой проект по категоризации текста с использованием алгоритма кластеризации и KNN. Но моя классификация не работает должным образом. Я просто использовал значение ASCII каждой буквы для классификации. В моей классификации я просто...
321 просмотров

Классификатор NaiveBayes: нужно ли объединять все файлы одного класса?
Я реализую простой наивный байесовский классификатор, но не понимаю, как правильно рассчитать условную вероятность класса (P(d|c)) . Просто для полноты я хотел бы коротко пояснить используемую терминологию. Наивные байесовские вероятности...
85 просмотров

Стэнфордский классификатор - Почему?
Учитывая, что Stanford Classifier является относительно новым, какие дополнительные преимущества он предоставляет пользователям Weka или RapidMiner, работающим над текстовым ML?
153 просмотров

Классификация машинным обучением списков строк в JAVA без какого-либо окружающего их контекста
У меня есть несколько списков строк, уже классифицированных как <string> <tag> 088 9102355 PHONE NUMBER 091 910255 PHONE NUMBER ... Alfred St...
967 просмотров

Scikit-learn: precision_recall_fscore_support возвращает странные результаты
Я занимаюсь анализом/классификацией текста и пытаюсь оценить производительность с помощью функции precision_recall_fscore_support из модуля sklearn.metrics . Я не уверен, как я могу создать действительно небольшой пример, воспроизводящий проблему,...
1255 просмотров

Разреженные матрицы в текстовой классификации tensorflow python
Я пытался реализовать процедуру классификации текста, используя пакет tensorflow в python. У меня уже была успешная версия персептрона, работающая в среде scikit-learn, но scikit-learn не имеет многослойных нейронных сетей (за исключением какой-то...
771 просмотров

недопустимый тип (символ) аргумента
Это сообщение об ошибке в теме. Я получаю эту ошибку, когда пытаюсь запустить классификатор naive.bayes. Вот сводка моих данных о поездах: 'data.frame': 7269 obs. of 193 variables: $ pid : int 2 4 5 7 10 11 14 18 25 31 ... $ acquir...
7354 просмотров

Должен ли я удалять стоп-слова при подаче предложения в RNN
Я знаю, что в модели мешка слов мы должны удалить стоп-слова и знаки препинания перед обучением. Но в модели RNN, если я хочу выполнить классификацию текста, должен ли я также удалить стоп-слова?
2519 просмотров

Должен ли я использовать word2vec для встраивания слов, включая данные тестирования?
Я новичок в НЛП, и я пытаюсь выполнить работу по классификации текстов. Прежде чем приступить к работе, я знаю, что мы должны выполнить встраивание слов. Мой вопрос: должен ли я выполнять работу по встраиванию слов только в обучающие данные (чтобы...
645 просмотров

Категоризация текста Python с использованием TFIDF
У меня есть набор данных, как показано ниже **ID** **Text** **Category** 1 jake loves me more than john loves me Romance 2 july likes me more than robert loves me...
620 просмотров

Классификатор текста с разделением слов с использованием классификатора StanfordNLP
После довольно успешного старта в Стэнфордском НЛП (и с немецким модулем) я попробовал классифицировать числовые данные. Это также закончилось с хорошими результатами. По крайней мере, я попытался настроить классификатор для категоризации...
605 просмотров

Классификация текста/классификация документов с маркировкой последовательностей с помощью молотка
У меня есть документы, расположенные в папках как классы, называемые категориями. Для нового ввода (например, заданного вопроса) я должен определить его категорию. Как лучше всего это сделать с помощью MALLET? Я просмотрел несколько статей об этом,...
387 просмотров