Согласно вашему описанию, я предлагаю вам попробовать установить высокий cloudDataMovementUnits, чтобы повысить производительность.
Единица перемещения облачных данных (DMU) - это мера, которая представляет мощность (комбинацию распределения ресурсов ЦП, памяти и сетевых ресурсов) одной единицы в фабрике данных. DMU можно использовать в операции копирования из облака в облако, но не в гибридной копии. По умолчанию фабрика данных использует один облачный DMU для выполнения одного запуска операции копирования. Чтобы переопределить это значение по умолчанию, укажите значение свойства cloudDataMovementUnits следующим образом. Для получения информации об уровне прироста производительности, который вы можете получить при настройке большего количества единиц для определенного источника и приемника копирования, см. Справочник по производительности.
Примечание. Значение 8 и выше в настоящее время работает только при копировании нескольких файлов из хранилища BLOB-объектов / Data Lake Store / Amazon S3 / облачного FTP / облачного SFTP в хранилище BLOB-объектов / Data Lake Store / базу данных SQL Azure.
Таким образом, максимальное значение DMU, которое вы можете установить, составляет 4.
Кроме того, если эта скорость не соответствует вашим текущим требованиям.
Я предлагаю вам написать свою собственную логику для копирования documentdb в озеро данных.
Вы можете создать несколько веб-заданий, которые могут использовать параллельное копирование из documentdb в озеро данных.
Вы можете преобразовать документ в соответствии с диапазоном индекса или разделом, а затем вы можете сделать каждую копию веб-задания отдельной частью. На мой взгляд, так будет быстрее.
Что касается dmu, могу ли я использовать его напрямую или мне нужно сначала подать заявку? Вы имеете в виду, что веб-вакансии - это активность dotnet? Вы можете подробнее рассказать?
Насколько я знаю, вы можете напрямую использовать dmu, вы можете напрямую добавить значение dmu в файл json, как показано ниже:
"activities":[
{
"name": "Sample copy activity",
"description": "",
"type": "Copy",
"inputs": [{ "name": "InputDataset" }],
"outputs": [{ "name": "OutputDataset" }],
"typeProperties": {
"source": {
"type": "BlobSource",
},
"sink": {
"type": "AzureDataLakeStoreSink"
},
"cloudDataMovementUnits": 32
}
}
]
веб-задание который может запускать программы или сценарии в веб-заданиях в веб-приложении службы приложений Azure тремя способами: по запросу, непрерывно или по расписанию.
Это означает, что вы можете написать программу C # (или использовать другой язык кода) для запуска программ или сценариев для копирования данных из documentdb в озеро данных (вся логика должна быть написана вами).
person
Brando Zhang
schedule
12.07.2017