обучить языковую модель с помощью Google Ngrams

Я хочу найти условную вероятность слова с учетом его предыдущего набора слов. Я планирую использовать Google N-grams для того же. Однако, будучи таким огромным ресурсом, я не думаю, что это вычислительно возможно сделать на моем ПК. (Чтобы обработать все N-граммы, обучить языковую модель).

Итак, есть ли способ обучить языковую модель с помощью Google Ngrams? (Даже библиотека python NLTK больше не поддерживает языковую модель ngram) Примечание. Я знаю, что языковую модель можно обучить с помощью ngrams, но, учитывая огромный размер N-грамм Google, как можно обучить языковую модель с использованием именно ngrams Google?


person Riken Shah    schedule 08.07.2016    source источник
comment
Ваш вопрос, можно ли использовать N-граммы Google для обучения или модели, или как обучить языковую модель с помощью ngrams или того и другого?   -  person erip    schedule 08.07.2016
comment
как обучить языковую модель с помощью ngrams   -  person Riken Shah    schedule 08.07.2016
comment
scikit-learn.org/stable/modules/feature_extraction.html   -  person erip    schedule 08.07.2016


Ответы (1)


Вы должны проверить эту гладкую базу кода из Калифорнийского университета в Беркли: https://github.com/adampauls/berkeleylm

В папке examples/ вы найдете bash-скрипт make-binary-from-google.sh, который создает компактную языковую модель из необработанных N-грамм Google. Получившийся LM реализует глупую отсрочку и использует быструю и эффективную структуру данных, описанную в следующей статье: http://nlp.cs.berkeley.edu/pubs/Pauls-Klein_2011_LM_paper.pdf

Если вас интересует только окончательный обученный LM, вы можете загрузить его на разных языках с веб-сайта Berkley: http://tomato.banatao.berkeley.edu:8080/berkeleylm_binaries/

person Dan Salo    schedule 13.07.2017
comment
Привет, я попытался запустить java -ea -mx10000m -server -cp ../src edu.berkeley.nlp.lm.io.ComputeLogProbabilityOfTextStream -g vocab_cs.gz eng.blm.gz <file to be scored>, где я скачал eng.blm.gz и vocab_cs.gz по предоставленной ссылке. Однако я получаю все logProbs как Nans. Не подскажете, в чем здесь может быть проблема? - person Ashutosh Baheti; 14.01.2019