Какие существуют технологии DFS для одновременного доступа (скажем, 10000 удаленных потоков в локальной сети 1 Гбайт) к 1000000 файлов, размер которых составляет всего МБ, но DSF должен обеспечивать высокий одновременный поток их для пользователей?
Распределенная файловая система для одновременного доступа к небольшим файлам
Ответы (1)
Общие файловые системы HPC, такие как Lustre или GPFS, часто не обеспечивают хорошей поддержки описанного вами сценария, а вместо этого оптимизированы для обеспечения высокой пропускной способности при доступе к большим файлам. В контексте HPC вам следует рассмотреть возможность использования промежуточного программного обеспечения ввода-вывода, такого как MPI-IO, или высокоуровневых библиотек ввода-вывода, таких как HDF5, вместо непосредственного взаимодействия с файловой системой. Эти библиотеки могут скрыть сложность оптимизации доступа к определенным файловым системам из вашего приложения, выбор подходящего зависит от структуры сценария вашего приложения.
С другой стороны, для одновременных и неструктурированных небольших доступов вам может потребоваться изучить технологии, связанные с облаком, например Файловая система Google, распределенные хранилища значений ключей, Cassandra, просто чтобы дать несколько указателей для дальнейших исследований.
Общий подход к абстракции и доступу к «файлам» (интерфейс POSIX) не был разработан для одновременного доступа, что затрудняет согласование с интерфейсом и одновременно обеспечивает высокий уровень параллелизма.
Если вам нужны более конкретные подсказки для подходящей технологии, предоставьте более конкретную информацию о ваших сценариях использования.