Публикации по теме 'text-classification'
Сохранение модели Sklearn в рассол
Сохранение модели и векторизатора как pickle
Модуль pickle реализует двоичные протоколы для сериализации и десериализации структуры объекта Python. Обработка - это процесс, при котором иерархия объектов Python преобразуется в поток байтов, а распаковка - обратная операция, при которой поток байтов (из двоичного файла или байтового объекта ) преобразуется обратно в иерархию объектов. Травление (и распаковка) также известно как сериализация , сортировка или сплющивание..
Изучение тематического моделирования с использованием полу-контролируемого обучения (объяснение корреляции)
В современном мире цифровая трансформация проводится во всех отраслях, и аналитика, основанная на данных, находится в ее центре. Данные генерируются и собираются в различных формах каждую секунду, и все организации стремятся обеспечить полное представление своих данных, чтобы предоставлять аналитические данные в режиме реального времени, а также возможность предпринимать действия, основанные на данных. Сложной частью любого процесса, управляемого данными, является получение необходимой..
Классификация текста с помощью CNN и LSTM
В этом блоге мы будем использовать набор данных Yelp-round 10 review , чтобы узнать, является ли отзыв положительным или отрицательным.
Данные выглядят так:
Проще говоря, мы классифицируем отзыв как положительный, если он имеет более 3 звезд, и отрицательный, если он имеет меньше или равно 3 звезд. Следовательно, это Контролируемая задача.
Чтобы построить и обучить модель, мы сначала очищаем текст и преобразуем его в последовательности. Каждый комментарий к обзору имеет ограничение..
Вопросы по теме 'text-classification'
svm - запутался в результате и баллах намного больше, чем +1 или -1
Я новичок в SVM. В моем проекте я использую SVM для классификации текстов. Набор данных представляет собой обзоры ноутбуков, и я делю их на два класса: «хороший обзор» и «плохой обзор». Я провел обучение, тестирование и классификацию, но есть...
1173 просмотров
schedule
03.06.2023
Прогнозирование классификаций с помощью наивного Байеса и работа с функциями/словами, не входящими в обучающий набор
Рассмотрим проблему классификации текста спама или не спама с помощью алгоритма наивного Байеса.
Вопрос следующий:
как вы делаете прогнозы о документе W =, если в этом наборе слов вы видите новое слово wordX, которое вообще не было замечено...
865 просмотров
schedule
10.07.2022
Как я могу сравнить классификаторы в наборе данных с помощью любого t-теста?
Я хочу сравнить классификаторы наборов данных с помощью любого t-теста. мой вопрос здесь, что я должен использовать для этого сравнения. бывший. классификатор 1 Я построю столбец для точности, точности, полноты и т. д.; и то же самое для...
1299 просмотров
schedule
29.04.2023
Перебирать каждую складку в операторе X_validation в Rapidminer?
Я выполняю задачу категоризации текста в Rapid miner, интегрируя Rapid miner в Java. Я использую 10-кратную перекрестную проверку (оператор x_validation). У меня есть требование получить доступ к образцам в тестовых/поездных сплитах в каждой сгибе?...
93 просмотров
schedule
06.12.2023
Почему производительность моей SVM падает после масштабирования обучающих и тестовых данных?
Я использую scikit-learn для анализа настроений текста. Мои функции прямо сейчас — это просто подсчет частоты слов.
Когда я делаю следующее, усредненная F-мера составляет около 59%:
from sklearn import svm
clf =...
2051 просмотров
schedule
24.08.2023
Постройте модель SVM в классификации R-текста
Я использую модель SVM из e1017 в R. Я использовал SVM для интеллектуального анализа текста и классификации. Итак, мои данные - это dtm (матрица терминов документа, полученная из корпуса документов). Как я могу приступить к построению моей модели...
1853 просмотров
schedule
17.07.2022
пакетная фильтрация weka StringToWordVector
Я пытаюсь использовать Weka для классификации текста. У меня есть два файла ARFF:
Один для обучающего набора (пример строки в данных):
"мышь", нет, нет, нет, нет, нет, да, нет
и еще один для тестового набора (пример строки в данных:)...
563 просмотров
schedule
21.01.2023
В каком порядке .find() возвращает документы MongoDB?
Мне было интересно, существует ли какой-то определенный «порядок», в котором документы MongoDB возвращаются при таком запросе:
collection.find()
Всегда ли это одно и то же, учитывая, что коллекция не меняется? Есть ли в MongoDB какой-то...
626 просмотров
schedule
24.01.2024
Категоризация текста KNN в Matlab
Я делаю свой проект по категоризации текста с использованием алгоритма кластеризации и KNN. Но моя классификация не работает должным образом. Я просто использовал значение ASCII каждой буквы для классификации. В моей классификации я просто...
321 просмотров
schedule
16.08.2023
Классификатор NaiveBayes: нужно ли объединять все файлы одного класса?
Я реализую простой наивный байесовский классификатор, но не понимаю, как правильно рассчитать условную вероятность класса (P(d|c)) . Просто для полноты я хотел бы коротко пояснить используемую терминологию. Наивные байесовские вероятности...
85 просмотров
schedule
27.05.2024
Стэнфордский классификатор - Почему?
Учитывая, что Stanford Classifier является относительно новым, какие дополнительные преимущества он предоставляет пользователям Weka или RapidMiner, работающим над текстовым ML?
153 просмотров
schedule
15.01.2024
Классификация машинным обучением списков строк в JAVA без какого-либо окружающего их контекста
У меня есть несколько списков строк, уже классифицированных как
<string> <tag>
088 9102355 PHONE NUMBER
091 910255 PHONE NUMBER
...
Alfred St...
967 просмотров
schedule
11.06.2022
Scikit-learn: precision_recall_fscore_support возвращает странные результаты
Я занимаюсь анализом/классификацией текста и пытаюсь оценить производительность с помощью функции precision_recall_fscore_support из модуля sklearn.metrics . Я не уверен, как я могу создать действительно небольшой пример, воспроизводящий проблему,...
1255 просмотров
schedule
08.08.2023
Разреженные матрицы в текстовой классификации tensorflow python
Я пытался реализовать процедуру классификации текста, используя пакет tensorflow в python. У меня уже была успешная версия персептрона, работающая в среде scikit-learn, но scikit-learn не имеет многослойных нейронных сетей (за исключением какой-то...
771 просмотров
schedule
24.08.2023
недопустимый тип (символ) аргумента
Это сообщение об ошибке в теме. Я получаю эту ошибку, когда пытаюсь запустить классификатор naive.bayes. Вот сводка моих данных о поездах:
'data.frame': 7269 obs. of 193 variables:
$ pid : int 2 4 5 7 10 11 14 18 25 31 ...
$ acquir...
7354 просмотров
schedule
10.03.2024
Должен ли я удалять стоп-слова при подаче предложения в RNN
Я знаю, что в модели мешка слов мы должны удалить стоп-слова и знаки препинания перед обучением. Но в модели RNN, если я хочу выполнить классификацию текста, должен ли я также удалить стоп-слова?
2519 просмотров
schedule
30.11.2022
Должен ли я использовать word2vec для встраивания слов, включая данные тестирования?
Я новичок в НЛП, и я пытаюсь выполнить работу по классификации текстов. Прежде чем приступить к работе, я знаю, что мы должны выполнить встраивание слов. Мой вопрос: должен ли я выполнять работу по встраиванию слов только в обучающие данные (чтобы...
645 просмотров
schedule
29.12.2022
Категоризация текста Python с использованием TFIDF
У меня есть набор данных, как показано ниже
**ID** **Text** **Category**
1 jake loves me more than john loves me Romance
2 july likes me more than robert loves me...
620 просмотров
schedule
20.01.2024
Классификатор текста с разделением слов с использованием классификатора StanfordNLP
После довольно успешного старта в Стэнфордском НЛП (и с немецким модулем) я попробовал классифицировать числовые данные. Это также закончилось с хорошими результатами.
По крайней мере, я попытался настроить классификатор для категоризации...
605 просмотров
schedule
30.11.2022
Классификация текста/классификация документов с маркировкой последовательностей с помощью молотка
У меня есть документы, расположенные в папках как классы, называемые категориями. Для нового ввода (например, заданного вопроса) я должен определить его категорию. Как лучше всего это сделать с помощью MALLET? Я просмотрел несколько статей об этом,...
387 просмотров
schedule
29.05.2024