Я занимаюсь небольшим исследованием интеллектуального анализа текста и интеллектуального анализа данных. Мне нужна дополнительная помощь в понимании сходства косинусов. Я читал об этом и заметил, что во всех приведенных примерах в Интернете используется tf-idf, прежде чем вычислять его через косинусное сходство.
Мой вопрос
Можно ли рассчитать косинусное сходство, просто используя распределение максимальной частоты из текстового файла, который будет набором данных. В большинстве видеороликов и руководств, которые я просматриваю, tf-idf запускался до ввода данных в косинусное сходство, если нет, то какие другие типы уравнений/алгоритмов можно ввести в косинусное сходство?
2. Почему нормализация используется с tf-idf для вычисления сходства косинусов? (могу ли я сделать это без нормализации?) Косинусное сходство вычисляется из нормализации вывода tf-idf. Зачем нужна нормализация?
3.Как косинусное сходство на самом деле влияет на веса tf-idf?