Загрузка любого из перечисленных общедоступных наборов данных Amazon (http://aws.amazon.com/datasets) потребует много ресурсов и пропускной способности. Как лучше всего импортировать их в AWS, чтобы быстро начать с ними работать?
Как вы импортируете общедоступные наборы данных больших данных в AWS?
Ответы (2)
Вам нужно будет создать новый экземпляр EBS, используя Snapshot-ID для общедоступного набора данных. Таким образом, вам не нужно будет платить за перевод.
Но будьте осторожны, некоторые наборы данных доступны только в одном регионе, который, скорее всего, обозначен подобным примечанием. Тогда вам следует зарегистрировать свой экземпляр EC2 в том же регионе.
Эти наборы данных размещены в регионе us-east-1. Если вы обрабатываете их из других регионов, с вас будет взиматься плата за передачу данных.
К вашему сведению: SDBExplorer использует многопоточные атрибуты BatchPutAttributes для достижения высокой пропускной способности записи при загрузке больших объемов данных в Amazon SimpleDB. SDB Explorer позволяет выполнять несколько параллельных загрузок. Если у вас есть пропускная способность, вы можете в полной мере воспользоваться этой пропускной способностью, запустив сразу несколько процессов BatchPutAttributes в параллельной очереди, что сократит время, затрачиваемое на обработку. SDBExplorer поддерживает импорт данных из MySql и CSV в Amazon SimpleDB.
Раскрытие информации: я разработчик SDBExplorer.