Загрузка Azure Synapse: разделение сжатых файлов большого размера на сжатые файлы меньшего размера

Я получаю эту рекомендацию от Azure Synapse.

Подробная информация о рекомендации Мы обнаружили, что вы можете увеличить пропускную способность, разделив сжатые файлы, которые хранятся в вашей учетной записи хранения. Хорошее практическое правило - разделить сжатые файлы на 60 или более, чтобы максимизировать параллелизм вашей загрузки. Подробнее…

Глядя на документацию Azure, это рекомендация.

Preparing data in Azure Storage
To minimize latency, colocate your storage layer and your SQL pool.

When exporting data into an ORC File Format, you might get Java out-of-memory errors when there are large text columns. To work around this limitation, export only a subset of the columns.

All file formats have different performance characteristics. For the fastest load, use compressed delimited text files. The difference between UTF-8 and UTF-16 performance is minimal.

Split large compressed files into smaller compressed files.

Я пытаюсь понять, как я могу разделить большие файлы сжатия на более мелкие файлы сжатия? Есть ли для этого возможность? Спасибо!


person knguyen    schedule 23.09.2020    source источник


Ответы (1)


Вы можете проверить эту статью Как максимизировать пропускную способность загрузки КОПИРОВАНИЯ с разделением файлов.

Рекомендуется загружать несколько файлов одновременно для параллельной обработки и увеличения производительности массовой загрузки с пулами SQL с помощью оператора COPY.

Руководство по разделению файлов изложено в следующем документе документация, и в этом блоге рассказывается, как легко разделить файлы CSV, находящиеся в ваших данных озеро с помощью фабрики данных Azure. Сопоставление потоков данных в конвейере данных.

person CHEEKATLAPRADEEP-MSFT    schedule 25.09.2020
comment
Да, Polybase и Copy Command - два наиболее известных метода для выполнения высокопроизводительных нагрузок из хранилища Azure в Azure Synapse. Команда COPY будет иметь лучшую производительность в зависимости от вашей рабочей нагрузки. Для лучшей производительности загрузки рассмотрите возможность разделения входных данных на несколько файлов при загрузке CSV. - person CHEEKATLAPRADEEP-MSFT; 25.09.2020
comment
огромное спасибо! В настоящее время я использую POLYBASE. Означает ли это, что я должен переключиться на КОПИРОВАНИЕ для повышения производительности? - person knguyen; 25.09.2020
comment
Да, вы можете переключиться на команду «Копировать» для повышения производительности. - person CHEEKATLAPRADEEP-MSFT; 25.09.2020
comment
Если мой ответ полезен для вас, вы можете принять его как ответ (щелкните галочку рядом с ответом, чтобы переключить его с серого на заполненный). Это может быть полезно для других членов сообщества. Спасибо. - person CHEEKATLAPRADEEP-MSFT; 28.09.2020