Вопросы по теме 'dask-distributed'

Поиск параметров с помощью dask
Как оптимально искать пространство параметров с помощью Dask? (без перекрестной проверки) Вот код (здесь нет DASK): def build(ntries,param,niter,func,score,train,test): res=[] for i in range(ntries):...
173 просмотров

Подграф Dask compute с фьючерсами
Я хочу отправить задачу dask, которая будет делать следующее: Создайте ленивый граф dask с помощью dask.bag ( def fakejob ) Вычислите график из 1. и сохраните его на паркете (эта часть не учитывается, просто мотивация). Мне нужно сделать...
250 просмотров

Как создать dask dataframe из файла CSV, хранящегося в HDFS (много файлов частей)
Я пытаюсь создать кадр данных dask из файла HDFS (csv). CSV-файл, хранящийся в HDFS, содержит множество файлов деталей. При вызове API read_csv: dd.read_csv("hdfs:<some path>/data.csv") Возникает следующая ошибка: OSError: Could...
628 просмотров
schedule 02.02.2023

Проблема с сохранением фрейма данных dask из read_sql_table и понимания вывода dask, распределенного Client.get_future_errors
После настройки кластера с помощью сценария dask-ec2 я пытаюсь прочитать таблицу sql как фрейм данных dask. Мой запрос выглядит так: import dask.dataframe as dd from dask.distributed import Client, progress c = Client('127.0.0.1:8786') df =...
543 просмотров
schedule 22.06.2022

Dask - одни и те же задачи не выполняются параллельно на кластере машин Ubuntu.
У меня 3 машины Ubuntu (CPU). мой планировщик dask и клиент находятся на одном компьютере, тогда как два рабочих процесса dask работают на двух других машинах. когда я запускаю первую задачу, она назначается для первого воркера, но затем при запуске...
496 просмотров
schedule 31.03.2022

Ограничение задач внутри блока конкретным работником (-ами)
В настоящее время есть проблема, когда я хотел бы ограничить все вызовы compute , persist и т. Д. В блоке кода для запуска на работнике (ах) с определенными ресурсами. К сожалению, у меня нет доступа к звонкам compute . Можно ли применить это...
21 просмотров
schedule 09.11.2023

Промежуточные результаты Dask
У меня есть небольшое пользовательское приложение Dask (~ 20 узлов в DAG). Я хотел бы иметь возможность каким-то образом сохранить все промежуточные результаты функций для будущей проверки, поскольку иногда мы хотим знать, почему мы пришли к нашему...
216 просмотров
schedule 18.04.2022

Распределение Dask с помощью асинхронного параллелизма в реальном времени
Я читаю документацию по dask.distributed , и похоже, что я могу отправлять функции в распределенный кластер через client.submit() . У меня есть функция some_func , которая асинхронно захватывает отдельные документы (скажем, текстовый файл), и я...
388 просмотров
schedule 29.07.2022

Анализ потока данных фреймов данных Dask
У меня есть набор данных, хранящийся в текстовом файле с разделителями табуляции. Файл выглядит следующим образом: date time temperature 2010-01-01 12:00:00 10.0000 ... где столбец temperature содержит значения в градусах...
169 просмотров
schedule 03.09.2023

Ошибка работника dask jobqueue при запуске "Ресурс временно недоступен"
Я запускаю dask через slurm через очередь заданий, и я довольно часто получаю 3 ошибки ... В основном мой вопрос в том, что могло вызвать эти сбои? На первый взгляд проблема в том, что слишком много воркеров одновременно записывают на диск или мои...
284 просмотров
schedule 16.08.2023

dask, joblib, ipyparallel и другие планировщики для неприятно параллельных задач
Это более общий вопрос о том, как запускать «досадно параллельные» задачи с «планировщиками» Python в научной среде. У меня есть код, представляющий собой гибрид Python / Cython / C (в этом примере я использую github.com/tardis-sn/tardis ... но у...
838 просмотров
schedule 08.08.2022

Как программно получить URL-адрес пользовательского интерфейса Dask-YARN
Я использую Dask YARN для создания такого приложения: spec = skein.ApplicationSpec( ... ) cluster = YarnCluster.from_specification(spec) client = Client(cluster) обычно я затем запускал yarn application -list из командной строки и получал...
91 просмотров
schedule 20.08.2022

Загрузить огромные данные из фрейма данных dask в bigquery
Я читал другие похожие темы и искал в Google, чтобы найти лучший способ, но не нашел решения, приемлемого с точки зрения производительности. У меня очень большой фрейм данных dask со 100 разделами и 57 столбцами. Я хочу переместить его в таблицу...
576 просмотров

Ожидание внешних зависимостей в dask
Контекст: я использую настраиваемые графики dask для управления и распределения вычислений. Проблема: некоторые задачи включают чтение файлов, созданных вне dask и не обязательно доступных во время вызова dask.get(graph,result_key) ....
79 просмотров
schedule 18.04.2023

Инициализация модуля задачи global в dask worker с помощью --preload?
Я пытался добиться чего-то похожего на эти вопросы ( Инициализация состояния для рабочих, распределенных по dask , Настройка рабочего Dask с переменной ), где у меня есть ( относительно) большая модель, которую я хочу предварительно инициализировать...
434 просмотров
schedule 27.02.2023

Огромная разница в использовании памяти между dask и dask.distributed
Я пытаюсь использовать dask.delayed для вычисления большой матрицы для использования в последующих вычислениях. Я всегда запускаю код только на одном локальном компьютере. Когда я использую dask планировщик для одной машины, он работает...
1447 просмотров

Ограничение планировщика Dask (fps)
На https://distributed.dask.org/en/latest/actors.html#motivation Я прочитал the scheduler can coordinate about 4000 tasks per second . Это действительно верхний предел планировщика, или его можно как-то увеличить? Я прошу вариант использования, в...
31 просмотров
schedule 03.04.2022

Реализация Dask для операции мутации
Я пытаюсь преобразовать следующую операцию numpy в dask, но дело в том, что это изменяемая операция, поэтому в операторе distMap[:, i] = da.sqrt(xSum + ySum).min(axis=0) появляется ошибка NotImplementedError: Item assignment with <class...
40 просмотров

dask jobqueue не может создать клиентский планировщик и рабочие
Я создал сценарий задания с помощью очереди заданий dask в следующем формате: import dask from dask.distributed import Client from dask_jobqueue import PBSCluster cluster = PBSCluster(queue='research', project='DaskOnPBS',...
120 просмотров
schedule 02.02.2022

(Из распределенной dask) ImportError: невозможно импортировать имя 'scheduler'
Я пытаюсь настроить распределенные вычисления с планировщиком, работником и клиентом, когда пытаюсь импортировать планировщик с помощью следующей команды: from dask.distributed import Scheduler он выдает ошибку импорта: ImportError...
1019 просмотров
schedule 27.08.2023