Разница в microsoft azure между кластером и учетной записью хранения

Я учусь на

HDInsight Облачная служба больших данных Microsoft. Apache Hadoop и другие популярные решения для больших данных.

Data Lake Analytics Анализ больших данных стал проще


person user2543622    schedule 18.03.2016    source источник


Ответы (1)


Здесь много вопросов, поэтому позвольте мне ответить на них один на один.

Что такое хранилище BLOB-объектов или кластер HDInsight? Хранилище BLOB-объектов - это распределенное файловое хранилище, очень похожее на HDFS и используемое для хранения данных / видео / вещей. Кластер HDInsight - это несколько виртуальных машин Hadoop, созданных для запуска кода Map Reduce через DFS (HDFS или хранилище BLOB-объектов). Наличие двух отдельных сервисов позволяет масштабировать каждый независимо, экономя деньги в долгосрочной перспективе. Хранение данных дешево, но кластер виртуальных машин на 500 узлов может быстро стать дорогим. Полезно иметь возможность убить кластер, но сохранить свои данные.

Почему я не могу подключить одну и ту же учетную запись хранения к разным кластерам? Вы можете указать несколько кластеров на одну и ту же учетную запись хранения, но это шаблон защиты. У учетных записей хранения есть ограничения данных и ввода-вывода, и если у вас есть несколько кластеров, работающих с одной учетной записью хранения, более вероятно, что вы столкнетесь с ними. Кроме того, учетные записи хранения стоят $ $$, только если в них есть данные, поэтому наличие нескольких учетных записей не означает увеличения стоимости.

Что такое Azure Data Lake (ADL) и хранилище ADL? Озеро данных Azure - еще один вариант как для хранилища, так и для вычислений. Хранилище ADL можно рассматривать как хранилище BLOB-объектов v2. Вы получаете увеличение некоторых ограничений на ввод-вывод и размер файла из хранилища BLOB-объектов, но при этом можете использовать Hadoop для вычислений. ADL - это второй вариант вычислений, который полностью отличается от Hadoop. Вам не нужно беспокоиться о создании кластера или кластерах в целом. Вы пишете запрос, указываете желаемый объем распараллеливания, и данные возвращаются.

Ссылки:

https://azure.microsoft.com/en-us/documentation/articles/azure-subscription-service-limits/#storage-limits

https://azure.microsoft.com/en-us/services/hdinsight/

https://azure.microsoft.com/en-us/solutions/data-lake/

person Andrew Moll    schedule 18.03.2016
comment
когда мне выбрать hdinsight vs adl? - person user2543622; 18.03.2016
comment
если у вас много данных или вы планируете использовать большой кластер, используйте хранилище ADL. Если вы не знаете / хотите изучить Hadoop, попробуйте ADL - person Andrew Moll; 18.03.2016