Вопросы по теме 'mallet'

Тематическое моделирование молотком
Я использовал молоток для определения тем для текстового файла, содержащего 100 000 строк (около 34 МБ в формате молотка). Но теперь мне нужно запустить его для файла, содержащего миллион строк (около 180 МБ), и я получаю исключение...
2358 просмотров
schedule 04.06.2024

Маллет CRF SimpleTagger фразы / несколько слов
Я новичок в Mallet, я пытаюсь использовать mallet Simple tagger/CRF и экспериментирую с фразами - я пробовал искать документацию на сайте mallet, а также просматривал пользовательские архивы - ничего не помогло. Я пробовал тренировать молоток для...
869 просмотров
schedule 19.08.2022

как получить распределение вероятностей для темы в маллете?
Используя молоток, я могу получить определенное количество тем и их слов. Как я могу убедиться, что тематические слова имеют распределение вероятностей (т.е. сумма до единицы)? Например, если я запускаю его, как показано ниже, как я могу...
702 просмотров

пропорции темы в моем корпусе?
Спасибо, что прочитали и нашли время подумать и ответить на это. Я использую оболочку Gensim для Mallet ( ldamallet.py ), и это работает как шарм. Мне нужно получить пропорции темы для моего корпуса (по всем моим документам), и я не знаю, как это...
283 просмотров
schedule 10.08.2023

пустые темы в моделировании тем Mallet LDA
Когда я использую Mallet LDA с большим количеством тем (например, T> 300), я получаю темы с пустыми тематическими словами (нет ни одного тематического слова). Почему так происходит? Это ошибка в Mallet? Я использую молоток 2.0.7 на машине с...
512 просмотров
schedule 25.02.2022

Простое руководство по инструменту, поддерживающему классификацию текста, кластеризацию и моделирование тем.
Что такое инструмент для анализа текста с простыми учебными пособиями и активным сообществом? Я нашел несколько популярных, но не уверен, с чего начать.
234 просмотров

Классификация текста/классификация документов с маркировкой последовательностей с помощью молотка
У меня есть документы, расположенные в папках как классы, называемые категориями. Для нового ввода (например, заданного вопроса) я должен определить его категорию. Как лучше всего это сделать с помощью MALLET? Я просмотрел несколько статей об этом,...
387 просмотров

Время обучения POS-тегов Mallet
Я пытался использовать простой тегировщик Mallet ( http://mallet.cs.umass.edu/sequences.php ), чтобы изучить CRF-модель для POS-тегов. Теперь я начинаю волноваться/запутываться, так как мой компьютер учится для этой модели уже более недели....
158 просмотров
schedule 22.10.2022

Основное использование молотка. Первые шаги
Я пытаюсь использовать Mallet буквально без опыта моделирования тем и т. д. Моя цель — получить N темы из M документов, которые у меня есть прямо сейчас, классифицировать каждый документ с одной или несколькими темами (документ 1 = тема 1;...
651 просмотров
schedule 13.12.2022

Используйте Gensim или другие пакеты LDA Python для использования обученной модели LDA от Mallet
У меня есть модель LDA, обученная через Mallet на Java. Из модели Mallet LDA генерируются три файла, которые позволяют мне запускать модель из файлов и делать вывод о распределении тем для нового текста. Теперь я хотел бы реализовать инструмент...
1024 просмотров
schedule 17.02.2022

Как маллет устанавливает свои гиперпараметры по умолчанию для LDA, то есть альфа и бета?
У меня есть один вопрос, чтобы задать о моделировании темы Mallet. Как он устанавливает гиперпараметры по умолчанию для LDA, то есть альфа и бета?
1732 просмотров
schedule 11.06.2024

Соотношение тем во времени с использованием Mallet LDA
Я хотел бы знать, как тренировать маллет LDA по предложениям из 130 файлов .txt (ежемесячные данные) в моем корпусе. Поскольку проблема, с которой я сталкиваюсь, когда я оцениваю на уровне документа, заключается в том, что график соотношения тем...
424 просмотров
schedule 24.05.2022

Маллет с Gensim: файл не найден
Я пытаюсь заставить работать LDAMallet в gensim, но получаю следующую ошибку 'C:\...\AppData\Local\Temp\eb09f5_state.mallet.gz' не найден Код ldamallet = gensim.models.\ wrappers.LdaMallet(mallet_path, corpus=corpus,...
616 просмотров
schedule 21.01.2023

Как я могу установить случайное семя модели темы, используя молоток в gensim?
Я пытался сохранить стабильность результатов тематического моделирования, используя молоток в качестве библиотеки в gensim. Однако я обнаружил, что молоток может устанавливать случайное семя, но я не вижу в gensim никакого параметра для его установки.
1065 просмотров
schedule 30.10.2023

моделирование темы молотка: как деактивировать строчные буквы?
Я провожу эксперимент по моделированию тем с Маллетом на немецких текстах. Поскольку немецкие существительные начинаются с прописной буквы, я хочу сохранить эту функцию. Кто-нибудь знает, как отключить нижний регистр?
28 просмотров
schedule 03.12.2023

сделать тематическое моделирование Маллета стабильным
Я использую инструмент моделирования тем молотка, и мне трудно сделать его стабильным (темы, которые я получаю, не кажутся очень логичными). Я работал с вашим учебником и этим:...
120 просмотров
schedule 12.11.2023

Как автоматически генерировать одно или два слова для представления темы?
Mallet создает темы с самыми популярными ключевыми словами. Ключевые слова уникальны для одной темы. Есть ли автоматический способ выбрать определенное слово или несколько слов из ключевых слов темы в качестве маркировки темы. Например, из 500...
76 просмотров
schedule 19.01.2023

Распределения ключевых слов Java Mallet LDA
Я использовал API Java-Mallet для моделирования тем с помощью LDA. API дает следующие результаты: тема: ключевое слово1 (количество), ключевое слово2 (количество) Например тема 0: файл (12423), тест (3123)... тема 1: класс (2415), тест (314)......
28 просмотров
schedule 30.01.2023

Как исправить эту ошибку: возвращен ненулевой статус выхода 1 в Маллете?
Помогите пожалуйста со следующей ошибкой. Я много пытался исправить это, но безрезультатно. Код: MALLET_PATH = './Mallet/bin/mallet' def topic_model_coherence_generator(corpus, texts, dictionary, start_topic_count=2, end_topic_count=10,...
221 просмотров
schedule 03.08.2022

Распределение тем во времени с LDA
Моя цель — определить темы твитов и визуализировать, как распределение тем менялось с течением времени. Насколько я знаю, лучше всего это сделать с помощью пакета stm, но у меня есть некоторые проблемы с ним. Итак, мой единственный вариант - сделать...
58 просмотров
schedule 24.06.2023