Однако известное мне исследование оценки отдельных значений использует ряд специальных оценок, сильно отличающихся от подхода, используемого HyperLogLog.
Да потому что они решают совсем другую задачу.
Предположим, вы только что конфисковали тайник с 1 000 000 поддельных долларовых банкнот и хотите узнать количество различных серийных номеров.
Выбрав 100 000 из них (используя HyperLogLog, поскольку ваша старинная паровая счетная машина имеет всего 1 КБ памяти), вы подсчитываете 5000 различных серийных номеров, каждый из которых встречается где-то около 20 раз. Тогда вы можете быть уверены, что весь тайник будет содержать лишь немногим более 5000 различных серийных номеров.
Теперь предположим, что 1 серийный номер встречается 95,001 раз, а 4999 серийных номеров встречаются только один раз. Очевидно, какие-то настоящие банкноты попали в ваш тайник. Теперь вы можете быть уверены, что в тайнике содержится около 5% честных банкнот, так что весь тайник содержит около 50 000 различных серийных номеров.
Обратите внимание, что распределение частот в вашей выборке используется для вывода о распределении во всем тайнике. На самом деле это упоминается как один из "специальных" (ваши слова) методов во втором документе. вы цитируете («Оценка количества различных значений (..) на основе выборки»):
Идея параметрической оценки заключается в подгонке распределения вероятностей к наблюдаемым относительным частотам различных значений атрибутов.
Также обратите внимание, что результаты HyperLogLog и подобных методов совершенно нечувствительны к распределению выборок по их значениям. Но ваша окончательная оценка, видимо, очень сильно зависит от этого!
Мой совет: используйте метод по вашему выбору (например, HyperLogLog) для подсчета количества различных значений в вашей выборке, а затем используйте один из методов в «Оценке на основе выборки», чтобы оценить количество значений. во всем мультинаборе или используйте свои предварительные знания о распределении мультинабора для расчета оценки (возможно, вы видели печатный станок фальшивомонетчиков и знаете, что он может печатать только один серийный номер)
person
Hans Lub
schedule
06.12.2012