Я хотел бы сгенерировать частоты ngram для большого набора данных. Википедия, а точнее, WEX от Freebase подходит для моих целей.
Какой самый лучший и экономичный способ сделать это на следующий день или около того?
Мои мысли:
- PostgreSQL использует регулярное выражение для разделения предложений и слов. У меня уже есть дамп WEX в PostgreSQL, и у меня уже есть регулярное выражение для разделения (большая точность здесь не требуется)
- MapReduce с Hadoop
- MapReduce с Amazon Elastic MapReduce, о котором я почти ничего не знаю
Мой опыт работы с Hadoop состоит в очень неэффективном вычислении Pi на трех инстансах EC2. Я хорошо разбираюсь в Java и понимаю концепцию Map + Reduce. Боюсь, PostgreSQL займет очень много времени, так как его нелегко распараллелить.
Любые другие способы сделать это? Что мне лучше всего сделать, чтобы сделать это в ближайшие пару дней?