Вопросы по теме 'dask'

Python dask DataFrame, применяется поддержка (тривиально распараллеливаемой) строки?
Недавно я нашел модуль dask , который призван стать простым в использовании модулем параллельной обработки Python. Для меня большой плюс в том, что он работает с пандами. Прочитав немного на его странице руководства, я не могу найти способ...
21635 просмотров
schedule 07.02.2022

Сдвиг всех строк в кадре данных dask
В Pandas есть метод DataFrame.shift(n), который сдвигает содержимое массива на n строк относительно индекса аналогично np.roll(a, n). Кажется, я не могу найти способ заставить подобное поведение работать с Dask. Я понимаю, что такими вещами, как...
1299 просмотров
schedule 13.11.2022

Как мне заставить dask вычислить список отложенных результатов или результатов на основе dask-контейнера?
У меня есть тривиально распараллеливаемая задача независимого вычисления результатов для многих таблиц, разбитых на множество файлов. Я могу создавать списки отложенных или dask.dataframe (а также пробовал, например, dict), и я не могу получить все...
3986 просмотров
schedule 03.07.2022

сохранение кадра данных dask в формате bcolz
В документации dask говорится: «BColz — это дисковое, фрагментированное, сжатое хранилище столбцов. Эти атрибуты делают его очень привлекательным для dask.dataframe, который может работать с ним особенно хорошо. Существует специальная функция...
346 просмотров
schedule 07.11.2022

Поддерживает ли Dask функции с несколькими выходами в Custom Graphs?
API Custom Graphs для Dask , похоже, поддерживает только функции, возвращающие один выходной ключ / значение. Например, следующую зависимость нелегко представить в виде графа Dask: B -> D / \ A- -> F \ /...
918 просмотров
schedule 30.01.2024

Сумка Dask из нескольких файлов в фрейм данных Dask со столбцами
Мне дан список имен файлов files , которые содержат данные с разделителями-запятыми, которые необходимо очистить, а также расширить за счет столбцов, содержащих информацию, основанную на именах файлов. Таким образом, я реализовал небольшую функцию...
1334 просмотров
schedule 23.11.2022

Сброс индекса фрейма данных dask, чтобы разрешить присоединение
Учитывая http://dask.readthedocs.io/en/latest/dataframe-api.html#dask.dataframe.DataFrame.reset_index говорит, что dask не поддерживает drop=True для reset_index() как мне объединить 2 фрейма данных вместе с другим индексом (как просматривает...
2891 просмотров
schedule 21.11.2022

читать процесс и объединять фреймворк pandas параллельно с dask
Я пытаюсь прочитать и обработать параллельно список файлов csv и объединить вывод в один pandas dataframe для дальнейшей обработки. Мой рабочий процесс состоит из 3 шагов: создать серию фреймов данных pandas, прочитав список файлов csv...
2747 просмотров
schedule 13.04.2022

Использование groupby в кадрах данных dask
У меня есть пара вопросов по использованию groupby на dask dataframes. Насколько я понимаю, повторение результата groupby, как в Pandas, не работает в dask, т.е. for name, group in sorted(grouped.groups): logger.info((name, group)) не...
1598 просмотров
schedule 12.03.2023

Заставить объект Dask Delayed вычислять все параметры перед применением функции
Мне очень нравится использовать Dask. Есть ли способ, которым я могу заставить объект Delayed потребовать, чтобы все его аргументы были вычислены перед применением отложенной функции? простой пример (вариант использования более интересен с...
232 просмотров
schedule 09.07.2023

Эффективный отсортированный diff в dask
Как я могу сделать следующее в Dask "эффективным" способом: В моем кадре данных dask есть столбцы «Дата» (datetime), «MAC» (категория) и «ID» (int), которые уже отсортированы по дате, и я хочу получить новый столбец с timedeltas для поступления...
669 просмотров
schedule 17.11.2022

Dask чтение CSV, установка раздела как длина CSV
Я пытаюсь написать код, который будет читать из набора CSV с именем my_file_*.csv в фреймворк Dask. Затем я хочу установить разделы в зависимости от длины CSV. Я пытаюсь сопоставить функцию для каждого раздела, и для этого каждый раздел должен...
4044 просмотров
schedule 25.08.2022

Как использовать сеть InfiniBand с Dask?
У меня есть кластер с высокопроизводительной сетью (InfiniBand). Однако, когда я настроил свой планировщик Dask и рабочие процессы, производительность оказалась не такой быстрой, как я ожидал. Как я могу сказать Dask использовать эту сеть? Отказ...
911 просмотров
schedule 31.05.2024

DASK - остановка воркеров во время выполнения приводит к тому, что завершенные задачи запускаются дважды
Я хочу использовать dask для обработки около 5000 пакетных задач, которые сохраняют свои результаты в реляционной базе данных, и после того, как все они будут завершены, я хочу запустить финальную задачу, которая запросит базу данных и сгенерирует...
166 просмотров
schedule 13.06.2023

Как запустить кластер dask.distributed в одном потоке?
Как запустить полный кластер Dask.distributed в одном потоке? Я хочу использовать это для отладки или профилирования. Примечание. Это часто задаваемый вопрос. Я добавляю вопрос и ответ здесь в Stack Overflow только для повторного использования в...
1454 просмотров
schedule 15.11.2023

Параллельный лист excel, прочитанный из dask
Привет. Все примеры использования dask, с которыми я столкнулся до сих пор, представляли собой несколько CSV-файлов в папке, которые читались с использованием вызова dask read_csv. если мне предоставлен файл xlsx с несколькими вкладками,...
7401 просмотров
schedule 24.06.2023

Поиск параметров с помощью dask
Как оптимально искать пространство параметров с помощью Dask? (без перекрестной проверки) Вот код (здесь нет DASK): def build(ntries,param,niter,func,score,train,test): res=[] for i in range(ntries):...
173 просмотров

Подграф Dask compute с фьючерсами
Я хочу отправить задачу dask, которая будет делать следующее: Создайте ленивый граф dask с помощью dask.bag ( def fakejob ) Вычислите график из 1. и сохраните его на паркете (эта часть не учитывается, просто мотивация). Мне нужно сделать...
250 просмотров

Значение Dask Replica Pandas учитывается в Groupby
Что я пытаюсь сделать, так это воспроизвести счетчики значений panda + функции idxmax в dask, потому что у меня много данных. Вот пример кадра данных: partner_num cust_id item_id revw_ratg_num revw_dt item_qty 0 100 01 5 05/30/2000 0 0...
1880 просмотров
schedule 31.01.2024

Как вы сбрасываете инфу из dask dataframe / series?
У меня есть серия dask, из которой надо скинуть и infs, и nans. .dropna() роняет только нанс. В numpy / pandas я бы сделал что-то вроде result = result[np.isfinite(result)] . Какой рекомендуемый эквивалент в даскленде? Индексирование объекта...
889 просмотров
schedule 14.11.2022