Вопросы по теме 'data-partitioning'

С# - элегантный способ разделения списка?
Я хотел бы разделить список на список списков, указав количество элементов в каждом разделе. Например, предположим, что у меня есть список {1, 2,... 11}, и я хотел бы разделить его таким образом, чтобы каждый набор имел 4 элемента, а последний...
32172 просмотров
schedule 27.07.2022

Перечислить все k-разделы массива 1d с элементами N?
Это кажется простым запросом, но Google не мой друг, потому что «раздел» набирает кучу обращений в базу данных и пространство файловой системы. Мне нужно перечислить все разделы массива из N значений (N является постоянным) в k подмассивов....
1421 просмотров
schedule 05.05.2023

Максимальный раздел монет
С тех пор, как вчера я стоял у торговой точки в супермаркете, еще раз пытаясь эвристически найти оптимальное распределение моих монет, пытаясь игнорировать нетерпеливую и нервную очередь позади меня, я размышлял о лежащей в основе алгоритмической...
1323 просмотров
schedule 28.04.2024

Разбиение большого целого числа с помощью Пролога
Я пытался научить себя Prolog в течение нескольких недель. Прямо сейчас я пытаюсь найти все способы сделать большое целое число из нескольких меньших целых чисел, используя предикат partition/3 , который я хочу работать так: | ?- partition(4,...
760 просмотров
schedule 27.07.2022

разбиение массива с плавающей запятой на аналогичные сегменты (кластеризация)
У меня есть такой массив поплавков: [1.91, 2.87, 3.61, 10.91, 11.91, 12.82, 100.73, 100.71, 101.89, 200] Теперь я хочу разбить массив следующим образом: [[1.91, 2.87, 3.61] , [10.91, 11.91, 12.82] , [100.73, 100.71, 101.89] , [200]]...
3169 просмотров

Запросы диапазона дат в хранилище таблиц Azure
Привет, после моего вопроса: Таблица Windows Azure задержка доступа Выбор ключей раздела и ключей строк о способе организации данных в моей учетной записи хранения Azure. У меня есть схема хранения таблиц, предназначенная для хранения информации о...
7188 просмотров

Вывод U-SQL в Azure Data Lake
Можно ли автоматически разбить таблицу на несколько файлов на основе значений столбцов, если я не знаю, сколько различных значений ключей содержится в таблице? Можно ли поместить значение ключа в имя файла?
3890 просмотров

(SPARK) Как лучше всего разделить данные, к которым применяется несколько фильтров?
Я работаю в Spark (на лазурных блоках данных) с файлом из 15 миллиардов строк, который выглядит следующим образом: +---------+---------------+----------------+-------------+--------+------+ |client_id|transaction_key|transaction_date|...
197 просмотров

Как обнаружить дубликаты в большом файле json с помощью PySpark HashPartitioner
У меня есть большой файл json с более чем 20 ГБ метаданных в формате json. Он содержит простые пользовательские метаданные в каком-то приложении, и я хотел бы просмотреть их, чтобы обнаружить дубликаты. Вот пример того, как выглядят данные:...
531 просмотров
schedule 26.02.2022

что происходит, когда раздел в случайном порядке больше 200 (spark.sql.shuffle.partitions 200 (по умолчанию) в кадре данных)
операция агрегации spark sql, которая перемешивает данные, например, spark.sql.shuffle.partitions 200 (по умолчанию). что происходит с производительностью, когда размер раздела в случайном порядке больше 200. Spark использует другую структуру...
338 просмотров