Как вы импортируете общедоступные наборы данных больших данных в AWS?

Загрузка любого из перечисленных общедоступных наборов данных Amazon (http://aws.amazon.com/datasets) потребует много ресурсов и пропускной способности. Как лучше всего импортировать их в AWS, чтобы быстро начать с ними работать?


person sheanineseven    schedule 24.01.2012    source источник


Ответы (2)


Вам нужно будет создать новый экземпляр EBS, используя Snapshot-ID для общедоступного набора данных. Таким образом, вам не нужно будет платить за перевод.

Но будьте осторожны, некоторые наборы данных доступны только в одном регионе, который, скорее всего, обозначен подобным примечанием. Тогда вам следует зарегистрировать свой экземпляр EC2 в том же регионе.

Эти наборы данных размещены в регионе us-east-1. Если вы обрабатываете их из других регионов, с вас будет взиматься плата за передачу данных.

person bardiir    schedule 24.01.2012

К вашему сведению: SDBExplorer использует многопоточные атрибуты BatchPutAttributes для достижения высокой пропускной способности записи при загрузке больших объемов данных в Amazon SimpleDB. SDB Explorer позволяет выполнять несколько параллельных загрузок. Если у вас есть пропускная способность, вы можете в полной мере воспользоваться этой пропускной способностью, запустив сразу несколько процессов BatchPutAttributes в параллельной очереди, что сократит время, затрачиваемое на обработку. SDBExplorer поддерживает импорт данных из MySql и CSV в Amazon SimpleDB.

http://www.sdbexplorer.com

Раскрытие информации: я разработчик SDBExplorer.

person Ashish Pancholi    schedule 27.01.2012