Каждый год у нас создается 20 000 000 текстовых файлов, средний размер которых составляет около 250 КБ каждый (35 КБ заархивировано).
Мы должны положить эти файлы в какой-то архив на 10 лет. Нет необходимости искать внутри текстовых файлов, но мы должны иметь возможность найти один текстовый файл, выполнив поиск по 5-10 полям метаданных, таким как «название продукта», «дата создания» и т. д.
Я рассматриваю возможность заархивировать каждый файл и сохранить их в базе данных SQL Server с 5-10 доступными для поиска (индексированными) столбцами и столбцом varbinary (MAX) для данных заархивированного файла.
База данных будет расти с годами; 5-10 Тб. Поэтому я думаю, что нам нужно разделить данные, например, сохраняя одну базу данных в год.
Я изучал использование FILESTREAM в SQL Server для столбца varbinary, в котором хранятся данные, но кажется, что это больше подходит для больших двоичных объектов> 1 МБ?
Любые другие предложения о том, как управлять такими объемами данных?