Вопросы по теме 'dask-distributed'
Поиск параметров с помощью dask
Как оптимально искать пространство параметров с помощью Dask? (без перекрестной проверки)
Вот код (здесь нет DASK):
def build(ntries,param,niter,func,score,train,test):
res=[]
for i in range(ntries):...
173 просмотров
schedule
09.06.2023
Подграф Dask compute с фьючерсами
Я хочу отправить задачу dask, которая будет делать следующее:
Создайте ленивый граф dask с помощью dask.bag ( def fakejob )
Вычислите график из 1. и сохраните его на паркете (эта часть не учитывается, просто мотивация).
Мне нужно сделать...
250 просмотров
schedule
10.03.2022
Как создать dask dataframe из файла CSV, хранящегося в HDFS (много файлов частей)
Я пытаюсь создать кадр данных dask из файла HDFS (csv). CSV-файл, хранящийся в HDFS, содержит множество файлов деталей.
При вызове API read_csv:
dd.read_csv("hdfs:<some path>/data.csv")
Возникает следующая ошибка:
OSError: Could...
628 просмотров
schedule
02.02.2023
Проблема с сохранением фрейма данных dask из read_sql_table и понимания вывода dask, распределенного Client.get_future_errors
После настройки кластера с помощью сценария dask-ec2 я пытаюсь прочитать таблицу sql как фрейм данных dask. Мой запрос выглядит так:
import dask.dataframe as dd
from dask.distributed import Client, progress
c = Client('127.0.0.1:8786')
df =...
543 просмотров
schedule
22.06.2022
Dask - одни и те же задачи не выполняются параллельно на кластере машин Ubuntu.
У меня 3 машины Ubuntu (CPU). мой планировщик dask и клиент находятся на одном компьютере, тогда как два рабочих процесса dask работают на двух других машинах. когда я запускаю первую задачу, она назначается для первого воркера, но затем при запуске...
496 просмотров
schedule
31.03.2022
Ограничение задач внутри блока конкретным работником (-ами)
В настоящее время есть проблема, когда я хотел бы ограничить все вызовы compute , persist и т. Д. В блоке кода для запуска на работнике (ах) с определенными ресурсами. К сожалению, у меня нет доступа к звонкам compute . Можно ли применить это...
21 просмотров
schedule
09.11.2023
Промежуточные результаты Dask
У меня есть небольшое пользовательское приложение Dask (~ 20 узлов в DAG). Я хотел бы иметь возможность каким-то образом сохранить все промежуточные результаты функций для будущей проверки, поскольку иногда мы хотим знать, почему мы пришли к нашему...
216 просмотров
schedule
18.04.2022
Распределение Dask с помощью асинхронного параллелизма в реальном времени
Я читаю документацию по dask.distributed , и похоже, что я могу отправлять функции в распределенный кластер через client.submit() .
У меня есть функция some_func , которая асинхронно захватывает отдельные документы (скажем, текстовый файл), и я...
388 просмотров
schedule
29.07.2022
Анализ потока данных фреймов данных Dask
У меня есть набор данных, хранящийся в текстовом файле с разделителями табуляции. Файл выглядит следующим образом:
date time temperature
2010-01-01 12:00:00 10.0000
...
где столбец temperature содержит значения в градусах...
169 просмотров
schedule
03.09.2023
Ошибка работника dask jobqueue при запуске "Ресурс временно недоступен"
Я запускаю dask через slurm через очередь заданий, и я довольно часто получаю 3 ошибки ...
В основном мой вопрос в том, что могло вызвать эти сбои? На первый взгляд проблема в том, что слишком много воркеров одновременно записывают на диск или мои...
284 просмотров
schedule
16.08.2023
dask, joblib, ipyparallel и другие планировщики для неприятно параллельных задач
Это более общий вопрос о том, как запускать «досадно параллельные» задачи с «планировщиками» Python в научной среде.
У меня есть код, представляющий собой гибрид Python / Cython / C (в этом примере я использую github.com/tardis-sn/tardis ... но у...
838 просмотров
schedule
08.08.2022
Как программно получить URL-адрес пользовательского интерфейса Dask-YARN
Я использую Dask YARN для создания такого приложения:
spec = skein.ApplicationSpec( ... )
cluster = YarnCluster.from_specification(spec)
client = Client(cluster)
обычно я затем запускал yarn application -list из командной строки и получал...
91 просмотров
schedule
20.08.2022
Загрузить огромные данные из фрейма данных dask в bigquery
Я читал другие похожие темы и искал в Google, чтобы найти лучший способ, но не нашел решения, приемлемого с точки зрения производительности.
У меня очень большой фрейм данных dask со 100 разделами и 57 столбцами. Я хочу переместить его в таблицу...
576 просмотров
schedule
15.10.2023
Ожидание внешних зависимостей в dask
Контекст: я использую настраиваемые графики dask для управления и распределения вычислений.
Проблема: некоторые задачи включают чтение файлов, созданных вне dask и не обязательно доступных во время вызова dask.get(graph,result_key) ....
79 просмотров
schedule
18.04.2023
Инициализация модуля задачи global в dask worker с помощью --preload?
Я пытался добиться чего-то похожего на эти вопросы ( Инициализация состояния для рабочих, распределенных по dask , Настройка рабочего Dask с переменной ), где у меня есть ( относительно) большая модель, которую я хочу предварительно инициализировать...
434 просмотров
schedule
27.02.2023
Огромная разница в использовании памяти между dask и dask.distributed
Я пытаюсь использовать dask.delayed для вычисления большой матрицы для использования в последующих вычислениях. Я всегда запускаю код только на одном локальном компьютере. Когда я использую dask планировщик для одной машины, он работает...
1447 просмотров
schedule
05.11.2023
Ограничение планировщика Dask (fps)
На https://distributed.dask.org/en/latest/actors.html#motivation Я прочитал the scheduler can coordinate about 4000 tasks per second . Это действительно верхний предел планировщика, или его можно как-то увеличить? Я прошу вариант использования, в...
31 просмотров
schedule
03.04.2022
Реализация Dask для операции мутации
Я пытаюсь преобразовать следующую операцию numpy в dask, но дело в том, что это изменяемая операция, поэтому в операторе distMap[:, i] = da.sqrt(xSum + ySum).min(axis=0) появляется ошибка NotImplementedError: Item assignment with <class...
40 просмотров
schedule
14.10.2022
dask jobqueue не может создать клиентский планировщик и рабочие
Я создал сценарий задания с помощью очереди заданий dask в следующем формате:
import dask
from dask.distributed import Client
from dask_jobqueue import PBSCluster
cluster = PBSCluster(queue='research',
project='DaskOnPBS',...
120 просмотров
schedule
02.02.2022
(Из распределенной dask) ImportError: невозможно импортировать имя 'scheduler'
Я пытаюсь настроить распределенные вычисления с планировщиком, работником и клиентом, когда пытаюсь импортировать планировщик с помощью следующей команды:
from dask.distributed import Scheduler
он выдает ошибку импорта:
ImportError...
1019 просмотров
schedule
27.08.2023