Я пытаюсь вычислить сходство между пользователями и текстовыми документами, используя их тематические представления. т.е. каждый документ и пользователь представлены вектором тем (например, нейронауки, технологии и т. д.) и тем, насколько эта тема актуальна для пользователя/документа.
Моя цель — вычислить сходство между этими векторами, чтобы я мог найти похожих пользователей, статьи и рекомендуемые статьи.
Я пытался использовать корреляцию Пирсона, но в конечном итоге она занимает слишком много памяти и времени, когда достигает ~ 40 тыс. статей, а длина векторов составляет около 10 тыс.
Я использую numpy.
Можете ли вы представить себе лучший способ сделать это? или это неизбежно (на одной машине)?
Спасибо