GCP Data Fusion Конфигурация хранилища BLOB-объектов Azure Перенос нескольких файлов

Я пытаюсь передать несколько CSV-файлов из контейнера хранилища Azure в корзину GCP через конвейер объединения данных.

Я могу успешно передать один файл, указав указанный ниже путь (полный путь для определенного CSV-файла) для поля «путь» для конфигурации хранилища BLOB-объектов Azure wasbs://[email protected]/< strong>CSV-файл.csv

но когда я пытаюсь передать несколько файлов из контейнера «contrainername», ниже «путь» не работает (здесь я не упомянул ни одного имени файла после «/», так как мне нужно передать все файлы в этом контейнере)

'wasbs://[email protected]/'

Возникает исключение, поскольку «программа Spark «фаза-1» завершилась с ошибкой: / не найден. Пожалуйста, проверьте системные журналы для получения более подробной информации'

Здесь я использую «Токен SAS» для аутентификации, который генерируется на уровне контейнера, который отлично работает для файла полного пути.

Есть ли какая-либо опция Forloop в конвейере GCP для перебора файлов? заранее спасибо


Изменить: токен SAS, сгенерированный на уровне контейнера, не работает для пути '/'. Токен SAS, сгенерированный на уровне учетной записи хранения, может выбрать все файлы в этом каталоге. Но он объединяет данные всех файлов в один файл (создается в хранилище GC).

Кто-нибудь может помочь в том, как передавать файлы отдельно? Спасибо


comment
Шрини В.: Из сообщения об ошибке трудно определить основную причину сбоя конвейера. Не могли бы вы проверить журналы конвейера и скопировать/вставить всю трассировку стека? Это будет полезно для отладки проблемы.   -  person Ajai    schedule 20.04.2021
comment
@AjaiI проверил трассировку журналов и заметил, что она работает для 1 файла. Для нескольких файлов, поскольку я пропускаю имя файла после «/», это не работает. Могу ли я использовать для каждого цикла для перебора файлов в этом каталоге. Не могли бы вы поделиться своими мыслями, плз?   -  person Srini V    schedule 20.04.2021
comment
Можете ли вы поделиться тем, что вы видите в журналах? Я не уверен, что происходит с ошибкой, когда конвейер работает с каталогом. Документация для подключаемого модуля github.com/data-integrations/azure/blob/develop/ упоминает об использовании glob для чтения файлов в каталоге. Было бы проще отлаживать, если бы вы могли предоставить журналы, которые вы видите при запуске конвейера.   -  person Ajai    schedule 20.04.2021
comment
@Ajail ниже приведен журнал трассировки: 20.04.2021 14:56:35 ИНФОРМАЦИЯ Конвейер be3e2e8c-a194-11eb-95d3-aa0f99b0091d запущен пользователем root с аргументами {logical.start.time=1618894592172, system .profile.name=SYSTEM:dataproc} 20/04/2021 14:56:35 Конвейер INFO 'be3e2e8c-a194-11eb-95d3-aa0f99b0091d' запущен 20/04/2021 14:56:54 ОШИБКА Программа Spark 'фаза-1 ' не удалось с ошибкой: / не найден. Пожалуйста, проверьте системные журналы для получения более подробной информации. 20.04.2021 14:56:54 ОШИБКА Сбой конвейера be3e2e8c-a194-11eb-95d3-aa0f99b0091d.   -  person Srini V    schedule 20.04.2021
comment
Шрини - я так понимаю, вы уже указали эту ошибку в исходном вопросе. Журнал заканчивается более подробной информацией о системных журналах. Можете ли вы проверить журналы appfabric, чтобы увидеть соответствующую трассировку стека? Это должно дать нам больше информации о том, где происходит сбой. Тем временем я попытаюсь воспроизвести его локально с помощью пользовательской настройки Azure.   -  person Ajai    schedule 20.04.2021
comment
@Ajail - Подробная трассировка журнала огромна, и я не смог вставить сюда, так как раздел комментариев допускает менее 600 символов. Есть ли альтернативный способ поделиться с вами? спасибо   -  person Srini V    schedule 21.04.2021
comment
Шрини В.: Можешь поделиться логами в pastebin?   -  person Ajai    schedule 21.04.2021
comment
@Ajai, пожалуйста, найдите ссылку pastebin.pl/view/81fabcf9   -  person Srini V    schedule 21.04.2021
comment
Шрини Ви: Я только что заметила твою редакцию. Ваша цель — прочитать все файлы в корневом каталоге в хранилище BLOB-объектов Azure и передать их как отдельные файлы в GCS?   -  person Ajai    schedule 23.04.2021
comment
Аджай: Да. Мое требование состоит в том, чтобы передать все файлы (CSV-файлы) в каталоге и передать в хранилище GCP в виде файлов .txt. Но мой текущий слияние данных объединяет все файлы и создает отдельные файлы .txt. Не могли бы вы помочь в переносе отдельных файлов? спасибо   -  person Srini V    schedule 23.04.2021
comment
@SriniV: Не могли бы вы подтвердить, что требование по отдельной передаче файлов из Azure в GCS было выполнено за счет использования передачи данных вместо слияния данных, как указано в приведенной ниже ссылке? stackoverflow.com/a/62349318/15831977   -  person Krishanu Sengupta    schedule 21.05.2021
comment
@KrishanuSengupta: Да, но с помощью передачи данных мы не можем изменить расширение файла (с .csv на .txt). Итак, я написал облачную функцию на buket, которая будет срабатывать при передаче файла (через передачу данных), она выберет этот файл и изменит расширение. В целом, я выполнил свое требование с помощью двухэтапного процесса (передача данных + облачная функция).   -  person Srini V    schedule 24.05.2021