реализация word2vec CBOW reader на CNTK

Я хочу реализовать CBOW word2vec с отрицательной выборкой. Я прочитал документацию CNTK, но не смог найти читателя, который мог бы принимать предложения в качестве входных и выходных 2*k + 1 слов (текущее слово и k контекстные слова слева и справа от текущего слова). Кроме того, я хочу реализовать это на Python.

Есть ли руководство по созданию пользовательского читателя текста cntk на Python?


person Ashutosh Baheti    schedule 24.01.2017    source источник


Ответы (1)


Вот модель CNTK для word2vec, предоставленная сообществом. https://github.com/jatinarora2702/CNTK-Word2Vec

Вы можете использовать часть кода здесь, чтобы смоделировать своего читателя. Приглашаем вас снова добавить его в инструментарий.

person Sayan Pathak    schedule 24.01.2017
comment
У этой реализации есть несколько проблем. Сначала он читает все предложения в одном массиве. Во-вторых, я создаю кодировку одним горячим вектором для входных слов и выдает softmax для всего словаря, который с треском провалится в случае огромного словарного запаса. Кроме того, это не реализация CBOW. Но у меня есть несколько советов по созданию ридера. Спасибо! - person Ashutosh Baheti; 25.01.2017
comment
Спасибо, Ашутош. Если вы хотите внести свой вклад в реализацию CBOW, мы будем рады ее принять. - person Sayan Pathak; 27.01.2017