обучение модели Fasttext

Я хочу обучить модель Fasttext на Python с помощью библиотеки gensim. Во-первых, я должен токенизировать каждое предложение в его слова, тем самым преобразовывая каждое предложение в список слов. Затем этот список должен быть добавлен к окончательному списку. Поэтому в конце у меня будет вложенный список, содержащий все токенизированные предложения:

word_punctuation_tokenizer = nltk.WordPunctTokenizer()
word_tokenized_corpus = []
for line in open('sentences.txt'):
   new = line.strip()
   new = word_punctuation_tokenizer.tokenize(new)
   if len(new) != 0:
       word_tokenized_corpus.append(new)

Затем модель должна быть построена следующим образом:

embedding_size = 60
window_size = 40
min_word = 5
down_sampling = 1e-2
ft_model = FastText(word_tokenized_corpus,
                  size=embedding_size,
                  window=window_size,
                  min_count=min_word,
                  sample=down_sampling,
                  sg=1,
                  iter=100)

Однако количество предложений в word_tokenized_corpus очень велико, и программа не может с этим справиться. Возможно ли, что я обучаю модель, давая ей каждое токенизированное предложение одно за другим, например следующее:

 for line in open('sentences.txt'):
  new = line.strip()
  new = word_punctuation_tokenizer.tokenize(new)
  if len(new) != 0:
   ft_model = FastText(new,
              size=embedding_size,
              window=window_size,
              min_count=min_word,
              sample=down_sampling,
              sg=1,
              iter=100)

Имеет ли это какое-либо значение для окончательных результатов? Можно ли обучать модель без создания такого большого списка и хранения его в памяти?

python gensim fasttext

B Noor 19.12.2020 источник

Ответы (2)

arrow_upward
1
arrow_downward

Поскольку объем данных очень велик, текстовый файл лучше преобразовать в файл COR. Затем прочтите это следующим образом:

from gensim.test.utils import datapath
corpus_file = datapath('sentences.cor')

Что касается следующего шага:

model = FastText(size=embedding_size,
                  window=window_size,
                  min_count=min_word,
                  sample=down_sampling,
                  sg=1,
                  iter=100)
model.build_vocab(corpus_file=corpus_file)
total_words = model.corpus_total_words
model.train(corpus_file=corpus_file, total_words=total_words, epochs=5)

B Noor 20.12.2020

arrow_upward
0
arrow_downward

Если вы хотите использовать fasttext API по умолчанию, вот как это можно сделать:

root = "path/to/all/the/texts/in/a/single/txt/files.txt"

training_param = {
    'ws': window_size,
    'minCount': min_word,
    'dim': embedding_size,
    't': down_sampling,
    'epoch': 5,
    'seed': 0
}
# for all the parameters: https://fasttext.cc/docs/en/options.html

model = fasttext.train_unsupervised(path, **training_param)
model.save_model("embeddings_300_fr.bin")

Преимущество использования fasttext API: (1) реализовано на C ++ с помощью оболочки на Python (намного быстрее, чем Gensim) (также многопоточное) (2) лучше управлять чтением текста. Также можно использовать его прямо из командной строки.

David Beauchemin 07.02.2021

обучение модели Fasttext

Ответы (2)

Похожие вопросы