Как объединить CSV-файлы из разных блоков BLOB-объектов, чтобы их можно было прочитать с помощью машинного обучения Azure?

Я довольно новичок в лазурных каплях, и у меня есть эта проблема. У меня есть блок больших двоичных объектов с более чем 10 CSV-файлами одного формата (те же заголовки и т. д.). Я хочу объединить их, чтобы рабочая область машинного обучения Azure могла считывать их как один набор данных. Это единственные файлы в блоке больших двоичных объектов, и все они имеют формат csv.

Как мне объединить эти большие CSV-файлы вместе в большой двоичный объект без необходимости «объединения» ML для каждого файла по мере его динамического роста?

Kat 15.03.2016 источник

comment

У вас есть более 10 отдельных блочных BLOB-объектов или один блочный BLOB-объект? Если они все в одном блобе (что, кажется, так и есть), почему они еще не объединены? - Emily Gerner 15.03.2016

comment

Они находятся в одном и том же BLOB-объекте, и я загрузил несколько CSV-файлов через C# в один и тот же блок BLOB-объектов. Но в будущем мы будем сбрасывать несколько CSV-файлов в один и тот же большой двоичный объект, чтобы переобучать модель по ходу дела. Мне было интересно, как получить динамический доступ ко всем блокам BLOB-объектов и использовать все эти данные одновременно, не создавая считывателя для каждого блока BLOB-объектов. - Kat 15.03.2016

Ответы (1)

arrow_upward
1
arrow_downward

Если вы всегда добавляете данные в конец большого двоичного объекта, вам следует рассмотреть возможность добавления больших двоичных объектов. Эти большие двоичные объекты специально оптимизированы для этого варианта использования, и их проще использовать в сценарии только для добавления.

Похоже, из вашего разъяснения вы хотите получить все данные в блочном BLOB-объекте. Простой «GET» в большом двоичном объекте должен получить полный большой двоичный объект и все его CSV-файлы — в библиотеке C # есть множество вариантов загрузки, поскольку вы упомянули, что использовали это. Для загрузки в блочные BLOB-объекты блоки не важны, а данные рассматриваются как одна большая вещь. Блоки — это больше единицы для загрузки.

Emily Gerner 16.03.2016

Как объединить CSV-файлы из разных блоков BLOB-объектов, чтобы их можно было прочитать с помощью машинного обучения Azure?

Ответы (1)

Похожие вопросы