Я нашел руководство, использующее word2vec, в большом наборе данных Википедии http://danielfrg.github.io/blog/2013/09/21/word2vec-yhat/
Я хотел бы создать API-интерфейс yhat rest, подобный тому, который Даниэль продемонстрировал в своем руководстве.
Сегодня я собрал несколько испанских газетных статей, которые хочу проанализировать. Веб-сайт, на котором я получил свои данные, очень регулярно форматирует свои статьи, поэтому у меня есть 1000 статей, хранящихся в виде строк, например.
"Otros se dan a conocer por la simpleza, como Sonya Cortés,
quien expresó que atesora compartir en familia y gozar de salud.
En el ambiente del reggaeton, Khriz, del dúo Ángel & Khriz,
aprovechará para estrenar su nueva piscina ya que por su agenda
de trabajo no ha podido darse un chapuzón todavía. Mientras,
Daddy Yankee se tomará un descanso con la familia luego de una larga gira."
Я хорошо разбираюсь в Python и надеялся использовать оболочку python, указанную в руководстве: https://github.com/danielfrg/word2vec
Как мне загрузить свой корпус в word2vec? Сейчас у меня есть массив строк.
На данный момент мой корпус укладывается в память. Является ли word2vec подходящим инструментом?