обработка естественного языка: формат корпуса текста для word2vec

Я нашел руководство, использующее word2vec, в большом наборе данных Википедии http://danielfrg.github.io/blog/2013/09/21/word2vec-yhat/
Я хотел бы создать API-интерфейс yhat rest, подобный тому, который Даниэль продемонстрировал в своем руководстве.

Сегодня я собрал несколько испанских газетных статей, которые хочу проанализировать. Веб-сайт, на котором я получил свои данные, очень регулярно форматирует свои статьи, поэтому у меня есть 1000 статей, хранящихся в виде строк, например.

"Otros se dan a conocer por la simpleza, como Sonya Cortés, 
quien expresó que atesora compartir en familia y gozar de salud.   
En el ambiente del reggaeton, Khriz, del dúo Ángel & Khriz, 
aprovechará para estrenar su nueva piscina ya que por su agenda 
de trabajo no ha podido darse un chapuzón todavía. Mientras, 
Daddy Yankee se tomará un descanso con la familia luego de una larga gira."

Я хорошо разбираюсь в Python и надеялся использовать оболочку python, указанную в руководстве: https://github.com/danielfrg/word2vec

Как мне загрузить свой корпус в word2vec? Сейчас у меня есть массив строк.

На данный момент мой корпус укладывается в память. Является ли word2vec подходящим инструментом?


person john mangual    schedule 28.11.2013    source источник


Ответы (2)


If by

Сейчас у меня есть массив строк

вы имеете в виду, что он уже токенизирован.

sentences = gensim.models.word2vec.LineSentence(path_to_corpus)
model = gensim.models.Word2Vec(sentences, min_count=10, size=500, window=10, sg=1, workers=4)

предложения должны быть списком строк, т.е.:

[['это', 'есть' , 'мое', 'первое', 'предложение'], ['это', 'есть', 'то', 'второе']]

person David Przybilla    schedule 19.02.2015

Попробуйте http://radimrehurek.com/gensim/models/word2vec.html.

На данный момент мой корпус укладывается в память. Является ли word2vec подходящим инструментом?

Да. Word2vec (как версия C, так и версия Python) может работать с корпусами больше, чем оперативная память. Меньше, чем ОЗУ, конечно, тоже работает.

person Radim    schedule 04.12.2013
comment
Прохладный! Я пытаюсь это сделать, но я застрял. stackoverflow.com/questions/20362993 / - person john mangual; 05.12.2013
comment
Я знаю. Я там тоже прокомментировал :) - person Radim; 05.12.2013