Публикации по теме 'doc2vec'
Введение в машинное обучение на примерах - сравнение предложений
То, что начиналось с простого вопроса, оказалось интересным упражнением и моим первым практическим введением в машинное обучение (ML). Вопрос был в следующем:
Как вы сравниваете два предложения, чтобы определить, похожи ли они или имеют одинаковое значение?
Когда я впервые проводил исследования, я был ошеломлен тем, что возможное решение включало машинное обучение, и мне пришлось изучить все тонкости целой отрасли. Но, как оказалось, вам действительно нужно очень мало знать о машинном..
Автоматическая кластеризация тем с использованием Doc2Vec
«Представьте, что вы менеджер большой компании и хотите сохранить данные о своих клиентах в надежном месте. Это означает, что вы должны быть в курсе текущих тенденций и угроз в области кибербезопасности. Однако ситуация с кибербезопасностью развивается очень быстро, поэтому оставаться в курсе событий сложно ».
Это было начало питча, который мы сделали на хакатоне HackDelft в минувшие выходные. Целью нашего проекта было создать новый способ представить тренды кибербезопасности..
Вопросы по теме 'doc2vec'
Как получить векторы слов из gensim Doc2Vec?
Я обучил модель gensim.models.doc2vec.Doc2Vec d2v_model = Doc2Vec (предложения, size = 100, window = 8, min_count = 5, worker = 4), и я могу получить векторы документов с помощью docvec = d2v_model.docvecs [0 ]
Как я могу получить векторы слов из...
7353 просмотров
schedule
20.02.2022
Как загрузить предварительно обученную модель doc2vec и использовать ее векторы
Кто-нибудь знает, какую функцию мне следует использовать, если я хочу использовать предварительно обученные модели doc2vec на этом веб-сайте https://github.com/jhlau/doc2vec ?
Я знаю, что мы можем использовать Keyvectors.load_word2vec_format()...
5341 просмотров
schedule
12.06.2022
Что такое итерации обучения doc2vec?
Я новичок в doc2vec. Сначала я пытался понять doc2vec, и ниже упоминается мой код, который использует Gensim. Как я хочу, я получаю обученную модель и векторы документов для двух документов.
Однако я хотел бы узнать о преимуществах переобучения...
3927 просмотров
schedule
01.09.2023
Как получить доступ к деталям документа из оценок подобия Doc2Vec в модели gensim?
Мне дали модель doc2vec с использованием gensim, которая была обучена на 20 миллионах документов. 20 миллионов документов, которые он обучил, также переданы мне, но я не знаю, как и в каком порядке документы были обучены из папки. Я должен...
1042 просмотров
schedule
19.02.2022
Gensim word2vec/doc2vec многопоточные параллельные запросы
Я хотел бы вызвать model.wv.most_similar_cosmul на той же копии объекта model , используя multiple cores , на batches of input pairs .
Для модуля multiprocessing требуется несколько копий модуля model , что потребует слишком много...
2325 просмотров
schedule
09.05.2023
Улучшение результатов Gensim Doc2vec
Я попытался применить doc2vec к 600000 строкам предложений: Код, как показано ниже:
from gensim import models
model = models.Doc2Vec(alpha=.025, min_alpha=.025, min_count=1, workers = 5)
model.build_vocab(res)
token_count = sum([len(sentence) for...
4970 просмотров
schedule
27.02.2023
Ошибка кластеризации ELKI Kmeans для многомерных данных
У меня есть 60000 документов, которые я обработал в gensim и получил матрицу 60000*300. Я экспортировал это как файл csv . Когда я импортирую это в среду ELKI и запускаю кластеризацию Kmeans , я получаю сообщение об ошибке ниже.
Task...
165 просмотров
schedule
13.06.2023
Gensim Doc2Vec Most_Similar
У меня проблемы с методом most_similar в модели Gensim Doc2Vec. Когда я запускаю most_similar, я получаю сходство только с первыми 10 документами с тегами (на основе их тегов - всегда от 0 до 9). Для этого кода у меня есть topn = 5, но я использовал...
2761 просмотров
schedule
10.04.2023
Gensim Doc2Vec: я получаю разные векторы из идентичных документов
У меня есть следующий код, и я думаю, что неправильно получаю векторы, потому что, например, векторы двух документов, которые на 100% идентичны, не совпадают.
def getDocs(corpusPath):
"""Function for processings documents as TaggedDocument"""...
683 просмотров
schedule
19.03.2022
Иерархическое обучение для doc2vec: как будет работать присвоение одинаковых меток предложениям одного и того же документа?
Каков эффект присвоения одной и той же метки кучке предложений в doc2vec? У меня есть набор документов, по которым я хочу изучить векторы с помощью gensim для задачи классификации «файлов», где файл относится к набору документов для данного...
628 просмотров
schedule
27.05.2024
Что означают эпохи в Doc2Vec и обучают, когда мне приходится запускать итерацию вручную?
Я пытаюсь понять параметр epochs в функции Doc2Vec и параметр epochs в функции train .
В следующем фрагменте кода я вручную настроил цикл из 4000 итераций. Требуется или достаточно передать 4000 в качестве параметра эпох в Doc2Vec? Кроме...
4986 просмотров
schedule
26.09.2022
Doc2Vec онлайн-обучение
Обучаю свою модель doc2vec:
data = ["Sentence 1",
"Sentence 2",
"Sentence 3",
"Sentence 4"]
tagged_data = [TaggedDocument(words=word_tokenize(_d.lower()), tags[str(i)])
for i, _d in...
562 просмотров
schedule
28.06.2022
Doc2Vec vs Avg Word Vectors: что лучше для анализа настроений?
Я выполнял анализ настроений для набора данных IMdb на Kaggle. Я использовал подход BOW с биграммами, и это дало мне приличную точность ~ 89%. Но я не знаю, как подойти к тому же с помощью встраивания слов: мне следует использовать усредненные...
200 просмотров
schedule
06.02.2022
Наиболее похожий Gensim doc2vec выдает ошибку неподдерживаемого типа (ов) операндов
Я использую предварительно обученную модель doc2vec, когда пытаюсь найти документ, наиболее похожий на документ моего образца. Это дает мне ошибку неподдерживаемого типа (ов) операндов.
from gensim.models import Doc2Vec
filename = "doc2vec.bin"...
198 просмотров
schedule
01.04.2024
Как с помощью модели doc2vec рассчитать схожесть слова или пары слов с документом?
В gensim у меня есть обученная модель doc2vec, если у меня есть документ и одно слово или два-три слова, как лучше всего рассчитать сходство слов с документом?
Я просто делаю стандартное косинусное сходство между ними, как если бы они были двумя...
259 просмотров
schedule
06.10.2022
Векторы слов из всей модели doc2vec против векторов слов из конкретного документа
Я обучил модель Gensim Doc2Vec с обучением word2vec по умолчанию (dm = 1). Я могу получить векторы слов из глобальной модели в model.wv.vectors. Но в документации говорится, что то же слово (в примере «листья») победило » t имеют одинаковый...
158 просмотров
schedule
22.04.2022
обучение word2vec из субтитров вебинара
Я строю модель для запуска воспроизведения видео с временного интервала в зависимости от контекста. Например воспроизвести кульминацию фильма, начинает воспроизводиться с 59-й минуты.
Я использую субтитры видео, сопоставляю текст в определенной...
43 просмотров
schedule
25.09.2023
Как получить детерминированные результаты поездов в Doc2Vec?
Я использую Doc2Vec для анализа некоторого абзаца и хочу получить детерминированное векторное представление данных поезда. Судя по официальной документации , мне кажется, что мне нужно установить параметры "seed" и «worker», а также переменную...
476 просмотров
schedule
02.06.2022
значение точек в предложениях при обучении документов с помощью Doc2Vec
Сомнение - 1
Я тренирую Doc2Vec с 150000 документами. Поскольку эти документы относятся к юридической сфере, их действительно сложно очистить и подготовить для дальнейшего обучения. Поэтому я решил удалить все точки из документа. Сказав это, я...
99 просмотров
schedule
05.02.2022
Оценка точности doc2vec
Я пытаюсь оценить модель doc2vec на основе кода из здесь . По сути, я хочу знать, что процент предполагаемых документов наиболее похож на сам себя. Это мой текущий код:
for doc_id, doc in enumerate(cur.execute('SELECT Text FROM Patents')):...
476 просмотров
schedule
21.01.2023