В настоящее время я использую sklearn для создания приложения, которое сравнивает данный документ с другими документами в поисках сходства.
При использовании других методов, таких как LSA, я знаю, что могу настроить скорость обучения так, чтобы старые документы были забыты или менее важны. Есть ли способ сделать что-то подобное с помощью TfIdf? Было бы лучше, если бы я мог определить вес, пропорциональный «дате» документа.
Я думал о применении какой-то медленно затухающей экспоненциальной функции к относительной дате документа и умножении ее на конечную косинусную оценку сходства. Хороший ли это подход?