Бесплатные большие наборы данных для экспериментов с Hadoop

Знаете ли вы какой-нибудь большой набор данных для экспериментов с Hadoop, который является бесплатным или недорогим? Любые связанные указатели/ссылки приветствуются.

Предпочтение:

  • Не менее одного ГБ данных.

  • Данные производственного журнала веб-сервера.

Некоторые из них, которые я нашел до сих пор:

  1. Дамп Википедии

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http://aws.amazon.com/publicdatasets/

Также мы можем запустить собственный сканер для сбора данных с сайтов, например. Википедия? Любые указания о том, как это сделать, также приветствуются.


person Community    schedule 20.04.2010    source источник
comment
Datanami недавно опубликовал этот список ссылок: datanami .com/2015/01/29/9-places-get-big-data-now - возможно, у кого-то есть время преобразовать это в правильный ответ.   -  person Nickolay    schedule 03.02.2015


Ответы (4)


Несколько моментов по вашему вопросу о сканировании и википедии.

Вы связались с дампами данных Википедии и можете использовать Cloud9 от UMD для работы с этими данными в Hadoop.

У них есть страница на эту тему: Работа с Википедией

Еще один источник данных для добавления в список:

  • ClueWeb09 — 1 миллиард веб-страниц собрано в период с января по февраль 2009 г. 5 ТБ в сжатом виде.

Я бы сказал, что использование сканера для генерации данных должно быть опубликовано в отдельном вопросе о Hadoop/MapReduce.

person Community    schedule 22.04.2010
comment
ссылка Работа с Википедией мертва. это замена lintool.github.com/Cloud9/docs/content/wikipedia.html ? - person f13o; 31.08.2012

Один очевидный источник: дампы данных трилогии Stack Overflow. Они находятся в свободном доступе по лицензии Creative Commons.

person Community    schedule 20.04.2010
comment
@toddlermenot — дампы теперь размещены в Интернет-архиве. Я обновил ссылку. Прочитайте причину, по которой он изменился на этой странице блога SE. - person APC; 09.08.2015

Это коллекция из 189 наборов данных для машинного обучения (одно из лучших приложений для Hadoop g): http://archive.ics.uci.edu/ml/datasets..html

person Community    schedule 23.04.2010

Это не файл журнала, но, возможно, вы могли бы использовать файл планеты из OpenStreetMap: http://wiki.openstreetmap.org/wiki/Planet.osm

Лицензия CC, около 160 ГБ (без упаковки)

Также есть файлы меньшего размера для каждого континента: http://wiki.openstreetmap.org/wiki/World

person Community    schedule 20.04.2010