Pandas: большие кадры данных в одном и том же HDF?

У меня есть несколько разных фреймов данных, которые связаны (и есть идентификаторы, чтобы присоединиться к ним, если это необходимо). Однако они не всегда нужны мне одновременно.

Так как они достаточно большие, есть ли смысл хранить их в отдельных хранилищах HDF? Или стоимость переноса «неиспользуемых» кадров незначительна, когда я работаю над другими кадрами в том же файле?


person FooBar    schedule 22.07.2016    source источник


Ответы (2)


Теоретически, если вы можете разделить свои файлы HDF с точки зрения подсистемы ввода-вывода (разные шпиндели, разные системы хранения и т. д.), вы можете попытаться читать свои DF параллельно, практически я бы проверил это в вашем конкретном случае. дело на вашем железе с вашими данными и т.д.

Еще одно преимущество разделения файлов — если вы удалите или резко уменьшите размер огромного DF из/в HDF Store, содержащего несколько DF — его размер останется неизменным. Если у вас есть отдельный файл, вы можете просто удалить его и освободить неиспользуемое место.

person MaxU    schedule 22.07.2016

Стоимость переноса неиспользуемых кадров одинакова, если они находятся в другом файле или в том же файле. Спросите себя, лучше ли хранить эту таблицу sql в другой базе данных или в той же базе данных. Если они связаны, держите их в одном магазине.

person piRSquared    schedule 22.07.2016