Как объединить CSV-файлы из разных блоков BLOB-объектов, чтобы их можно было прочитать с помощью машинного обучения Azure?

Я довольно новичок в лазурных каплях, и у меня есть эта проблема. У меня есть блок больших двоичных объектов с более чем 10 CSV-файлами одного формата (те же заголовки и т. д.). Я хочу объединить их, чтобы рабочая область машинного обучения Azure могла считывать их как один набор данных. Это единственные файлы в блоке больших двоичных объектов, и все они имеют формат csv.

Как мне объединить эти большие CSV-файлы вместе в большой двоичный объект без необходимости «объединения» ML для каждого файла по мере его динамического роста?


comment
У вас есть более 10 отдельных блочных BLOB-объектов или один блочный BLOB-объект? Если они все в одном блобе (что, кажется, так и есть), почему они еще не объединены?   -  person Emily Gerner    schedule 15.03.2016
comment
Они находятся в одном и том же BLOB-объекте, и я загрузил несколько CSV-файлов через C# в один и тот же блок BLOB-объектов. Но в будущем мы будем сбрасывать несколько CSV-файлов в один и тот же большой двоичный объект, чтобы переобучать модель по ходу дела. Мне было интересно, как получить динамический доступ ко всем блокам BLOB-объектов и использовать все эти данные одновременно, не создавая считывателя для каждого блока BLOB-объектов.   -  person Kat    schedule 15.03.2016


Ответы (1)


Если вы всегда добавляете данные в конец большого двоичного объекта, вам следует рассмотреть возможность добавления больших двоичных объектов. Эти большие двоичные объекты специально оптимизированы для этого варианта использования, и их проще использовать в сценарии только для добавления.

Похоже, из вашего разъяснения вы хотите получить все данные в блочном BLOB-объекте. Простой «GET» в большом двоичном объекте должен получить полный большой двоичный объект и все его CSV-файлы — в библиотеке C # есть множество вариантов загрузки, поскольку вы упомянули, что использовали это. Для загрузки в блочные BLOB-объекты блоки не важны, а данные рассматриваются как одна большая вещь. Блоки — это больше единицы для загрузки.

person Emily Gerner    schedule 16.03.2016