Публикации по теме 'doc2vec'


Введение в машинное обучение на примерах - сравнение предложений
То, что начиналось с простого вопроса, оказалось интересным упражнением и моим первым практическим введением в машинное обучение (ML). Вопрос был в следующем: Как вы сравниваете два предложения, чтобы определить, похожи ли они или имеют одинаковое значение? Когда я впервые проводил исследования, я был ошеломлен тем, что возможное решение включало машинное обучение, и мне пришлось изучить все тонкости целой отрасли. Но, как оказалось, вам действительно нужно очень мало знать о машинном..

Автоматическая кластеризация тем с использованием Doc2Vec
«Представьте, что вы менеджер большой компании и хотите сохранить данные о своих клиентах в надежном месте. Это означает, что вы должны быть в курсе текущих тенденций и угроз в области кибербезопасности. Однако ситуация с кибербезопасностью развивается очень быстро, поэтому оставаться в курсе событий сложно ». Это было начало питча, который мы сделали на хакатоне HackDelft в минувшие выходные. Целью нашего проекта было создать новый способ представить тренды кибербезопасности..

Вопросы по теме 'doc2vec'

Как получить векторы слов из gensim Doc2Vec?
Я обучил модель gensim.models.doc2vec.Doc2Vec d2v_model = Doc2Vec (предложения, size = 100, window = 8, min_count = 5, worker = 4), и я могу получить векторы документов с помощью docvec = d2v_model.docvecs [0 ] Как я могу получить векторы слов из...
7353 просмотров
schedule 20.02.2022

Как загрузить предварительно обученную модель doc2vec и использовать ее векторы
Кто-нибудь знает, какую функцию мне следует использовать, если я хочу использовать предварительно обученные модели doc2vec на этом веб-сайте https://github.com/jhlau/doc2vec ? Я знаю, что мы можем использовать Keyvectors.load_word2vec_format()...
5341 просмотров
schedule 12.06.2022

Что такое итерации обучения doc2vec?
Я новичок в doc2vec. Сначала я пытался понять doc2vec, и ниже упоминается мой код, который использует Gensim. Как я хочу, я получаю обученную модель и векторы документов для двух документов. Однако я хотел бы узнать о преимуществах переобучения...
3927 просмотров

Как получить доступ к деталям документа из оценок подобия Doc2Vec в модели gensim?
Мне дали модель doc2vec с использованием gensim, которая была обучена на 20 миллионах документов. 20 миллионов документов, которые он обучил, также переданы мне, но я не знаю, как и в каком порядке документы были обучены из папки. Я должен...
1042 просмотров

Gensim word2vec/doc2vec многопоточные параллельные запросы
Я хотел бы вызвать model.wv.most_similar_cosmul на той же копии объекта model , используя multiple cores , на batches of input pairs . Для модуля multiprocessing требуется несколько копий модуля model , что потребует слишком много...
2325 просмотров

Улучшение результатов Gensim Doc2vec
Я попытался применить doc2vec к 600000 строкам предложений: Код, как показано ниже: from gensim import models model = models.Doc2Vec(alpha=.025, min_alpha=.025, min_count=1, workers = 5) model.build_vocab(res) token_count = sum([len(sentence) for...
4970 просмотров
schedule 27.02.2023

Ошибка кластеризации ELKI Kmeans для многомерных данных
У меня есть 60000 документов, которые я обработал в gensim и получил матрицу 60000*300. Я экспортировал это как файл csv . Когда я импортирую это в среду ELKI и запускаю кластеризацию Kmeans , я получаю сообщение об ошибке ниже. Task...
165 просмотров

Gensim Doc2Vec Most_Similar
У меня проблемы с методом most_similar в модели Gensim Doc2Vec. Когда я запускаю most_similar, я получаю сходство только с первыми 10 документами с тегами (на основе их тегов - всегда от 0 до 9). Для этого кода у меня есть topn = 5, но я использовал...
2761 просмотров
schedule 10.04.2023

Gensim Doc2Vec: я получаю разные векторы из идентичных документов
У меня есть следующий код, и я думаю, что неправильно получаю векторы, потому что, например, векторы двух документов, которые на 100% идентичны, не совпадают. def getDocs(corpusPath): """Function for processings documents as TaggedDocument"""...
683 просмотров
schedule 19.03.2022

Иерархическое обучение для doc2vec: как будет работать присвоение одинаковых меток предложениям одного и того же документа?
Каков эффект присвоения одной и той же метки кучке предложений в doc2vec? У меня есть набор документов, по которым я хочу изучить векторы с помощью gensim для задачи классификации «файлов», где файл относится к набору документов для данного...
628 просмотров
schedule 27.05.2024

Что означают эпохи в Doc2Vec и обучают, когда мне приходится запускать итерацию вручную?
Я пытаюсь понять параметр epochs в функции Doc2Vec и параметр epochs в функции train . В следующем фрагменте кода я вручную настроил цикл из 4000 итераций. Требуется или достаточно передать 4000 в качестве параметра эпох в Doc2Vec? Кроме...
4986 просмотров
schedule 26.09.2022

Doc2Vec онлайн-обучение
Обучаю свою модель doc2vec: data = ["Sentence 1", "Sentence 2", "Sentence 3", "Sentence 4"] tagged_data = [TaggedDocument(words=word_tokenize(_d.lower()), tags[str(i)]) for i, _d in...
562 просмотров
schedule 28.06.2022

Doc2Vec vs Avg Word Vectors: что лучше для анализа настроений?
Я выполнял анализ настроений для набора данных IMdb на Kaggle. Я использовал подход BOW с биграммами, и это дало мне приличную точность ~ 89%. Но я не знаю, как подойти к тому же с помощью встраивания слов: мне следует использовать усредненные...
200 просмотров
schedule 06.02.2022

Наиболее похожий Gensim doc2vec выдает ошибку неподдерживаемого типа (ов) операндов
Я использую предварительно обученную модель doc2vec, когда пытаюсь найти документ, наиболее похожий на документ моего образца. Это дает мне ошибку неподдерживаемого типа (ов) операндов. from gensim.models import Doc2Vec filename = "doc2vec.bin"...
198 просмотров

Как с помощью модели doc2vec рассчитать схожесть слова или пары слов с документом?
В gensim у меня есть обученная модель doc2vec, если у меня есть документ и одно слово или два-три слова, как лучше всего рассчитать сходство слов с документом? Я просто делаю стандартное косинусное сходство между ними, как если бы они были двумя...
259 просмотров
schedule 06.10.2022

Векторы слов из всей модели doc2vec против векторов слов из конкретного документа
Я обучил модель Gensim Doc2Vec с обучением word2vec по умолчанию (dm = 1). Я могу получить векторы слов из глобальной модели в model.wv.vectors. Но в документации говорится, что то же слово (в примере «листья») победило » t имеют одинаковый...
158 просмотров
schedule 22.04.2022

обучение word2vec из субтитров вебинара
Я строю модель для запуска воспроизведения видео с временного интервала в зависимости от контекста. Например воспроизвести кульминацию фильма, начинает воспроизводиться с 59-й минуты. Я использую субтитры видео, сопоставляю текст в определенной...
43 просмотров
schedule 25.09.2023

Как получить детерминированные результаты поездов в Doc2Vec?
Я использую Doc2Vec для анализа некоторого абзаца и хочу получить детерминированное векторное представление данных поезда. Судя по официальной документации , мне кажется, что мне нужно установить параметры "seed" и «worker», а также переменную...
476 просмотров
schedule 02.06.2022

значение точек в предложениях при обучении документов с помощью Doc2Vec
Сомнение - 1 Я тренирую Doc2Vec с 150000 документами. Поскольку эти документы относятся к юридической сфере, их действительно сложно очистить и подготовить для дальнейшего обучения. Поэтому я решил удалить все точки из документа. Сказав это, я...
99 просмотров
schedule 05.02.2022

Оценка точности doc2vec
Я пытаюсь оценить модель doc2vec на основе кода из здесь . По сути, я хочу знать, что процент предполагаемых документов наиболее похож на сам себя. Это мой текущий код: for doc_id, doc in enumerate(cur.execute('SELECT Text FROM Patents')):...
476 просмотров
schedule 21.01.2023