У меня есть API, из которого приходят данные, но многие из них избыточны (можно определить по идентификатору). У меня есть фильтр Блума, созданный с несколькими миллионами записей для начала.
Я использую эту библиотеку для обработки реализации. Из моего чтения в Интернете:
Фильтр Блума — это компактная структура данных для вероятностного представления набора переменных, позволяющая убедиться, что элементы в наборе обязательно присутствуют или определенно отсутствуют в наборе. Источник
Если у меня есть такой псевдокод
newData #some dataset
for row in newData:
#filter.add() returns True if in set, we want only not in set
if not filter.add(row.id):
#do some stuff with fresh data
Эта функция будет вызываться каждый раз, когда поступает набор данных, что составляет около 200 новых записей в секунду.
Является ли это эффективным способом использования фильтра Блума?