Я читал, что алгоритм Apriori используется для извлечения правил ассоциации из набора данных, таких как набор кортежей. Это помогает нам найти наиболее часто встречающиеся наборы из 1 элемента, из 2 элементов и так далее. Моя проблема немного в другом. У меня есть набор данных, представляющий собой набор кортежей, каждый из которых имеет разный размер:
(1, 234, 56, 32) (25, 4575, 575, 464, 234, 32) . . . кортежи разного размера
Домен для записей огромен, а это означает, что я не могу иметь двоичный вектор для каждого кортежа, который сообщает мне, присутствует ли элемент «x» в кортеже. Следовательно, я не вижу здесь подходящего априорного алгоритма.
Моя цель - ответить на такие вопросы, как:
- Дайте мне ранжированный список из 5 чисел, которые встречаются с 234 большую часть времени.
- Назовите 5 лучших подмножеств размера «k», которые чаще всего встречаются вместе
Требования: Точное представление чисел в выводе (не приблизительное). Домен чисел можно рассматривать как от 1 до 1 миллиарда.
Я планировал использовать простые методы подсчета, если здесь не подходит стандартный алгоритм. Но, если вы, ребята, знаете какой-то алгоритм, который может мне помочь, пожалуйста, дайте мне знать.