Знаете ли вы какой-нибудь большой набор данных для экспериментов с Hadoop, который является бесплатным или недорогим? Любые связанные указатели/ссылки приветствуются.
Предпочтение:
Не менее одного ГБ данных.
Данные производственного журнала веб-сервера.
Некоторые из них, которые я нашел до сих пор:
Также мы можем запустить собственный сканер для сбора данных с сайтов, например. Википедия? Любые указания о том, как это сделать, также приветствуются.