Как я могу сделать следующее в Dask "эффективным" способом:
В моем кадре данных dask есть столбцы «Дата» (datetime), «MAC» (категория) и «ID» (int), которые уже отсортированы по дате, и я хочу получить новый столбец с timedeltas для поступления http-запросов для заданного mac-адреса.
В пандах я бы сделал следующее: настроил мультииндекс ['ID', 'MAC'], а затем создал новый столбец «Timedelta» с df['Date'].diff(1)
. Похоже, что мультииндекс не поддерживается, поэтому одно и то же решение не может быть воспроизведено. Важная часть заключается в том, что различия должны выполняться для одного и того же MAC-адреса, между данным запросом и последующим, который был записан (таким образом, отсортированы по дате).