Я хочу создать текстовую базу из 100 миллионов твитов, используя пакет R для распределенных вычислений tm (называемый tm.plugin.dc). Твиты хранятся в большой таблице MySQL на моем ноутбуке. Мой ноутбук старый, поэтому я использую кластер Hadoop, который я настроил на Amazon EC2.
В документации tm.plugin.dc от CRAN говорится, что только DirSource в настоящее время поддерживается. Документация, похоже, предполагает, что DirSource позволяет использовать только один документ в файле. Мне нужно, чтобы корпус рассматривал каждый твит как документ. У меня 100 миллионов твитов — значит ли это, что мне нужно сделать 100 миллионов файлов на моем старом ноутбуке? Это кажется чрезмерным. Есть ли способ лучше?
Что я уже пробовал:
Сделайте дамп таблицы MySQL в виде одного (массивного) файла .sql. Загрузите файл на S3. Перенесите файл с S3 на кластер. Импортируйте файл в Hive с помощью инструмента Cloudera Sqoop. Что теперь? Я не могу понять, как заставить DirSource работать с Hive.
Сделать каждый твит файлом XML на моем ноутбуке. Но как? Мой компьютер старый и не может сделать это хорошо. ... Если бы я мог обойти это, я бы: Загрузил все 100 миллионов XML-файлов в папку на Amazon S3. Скопируйте папку S3 в кластер Hadoop. Укажите DirSource на папку.