обучить языковую модель с помощью Google Ngrams

Я хочу найти условную вероятность слова с учетом его предыдущего набора слов. Я планирую использовать Google N-grams для того же. Однако, будучи таким огромным ресурсом, я не думаю, что это вычислительно возможно сделать на моем ПК. (Чтобы обработать все N-граммы, обучить языковую модель).

Итак, есть ли способ обучить языковую модель с помощью Google Ngrams? (Даже библиотека python NLTK больше не поддерживает языковую модель ngram) Примечание. Я знаю, что языковую модель можно обучить с помощью ngrams, но, учитывая огромный размер N-грамм Google, как можно обучить языковую модель с использованием именно ngrams Google?

Riken Shah 08.07.2016 источник

comment

Ваш вопрос, можно ли использовать N-граммы Google для обучения или модели, или как обучить языковую модель с помощью ngrams или того и другого? - erip 08.07.2016

comment

как обучить языковую модель с помощью ngrams - Riken Shah 08.07.2016

comment

scikit-learn.org/stable/modules/feature_extraction.html - erip 08.07.2016

Ответы (1)

arrow_upward
2
arrow_downward

Вы должны проверить эту гладкую базу кода из Калифорнийского университета в Беркли: https://github.com/adampauls/berkeleylm

В папке examples/ вы найдете bash-скрипт make-binary-from-google.sh, который создает компактную языковую модель из необработанных N-грамм Google. Получившийся LM реализует глупую отсрочку и использует быструю и эффективную структуру данных, описанную в следующей статье: http://nlp.cs.berkeley.edu/pubs/Pauls-Klein_2011_LM_paper.pdf

Если вас интересует только окончательный обученный LM, вы можете загрузить его на разных языках с веб-сайта Berkley: http://tomato.banatao.berkeley.edu:8080/berkeleylm_binaries/

Dan Salo 13.07.2017

comment

Привет, я попытался запустить

java -ea -mx10000m -server -cp ../src edu.berkeley.nlp.lm.io.ComputeLogProbabilityOfTextStream -g vocab_cs.gz eng.blm.gz <file to be scored>

, где я скачал eng.blm.gz и vocab_cs.gz по предоставленной ссылке. Однако я получаю все logProbs как Nans. Не подскажете, в чем здесь может быть проблема? - Ashutosh Baheti; 14.01.2019

обучить языковую модель с помощью Google Ngrams

Ответы (1)

Похожие вопросы