Для трех векторов текстовых документов, имеющих разную длину в своих векторах в VSM, где записи представляют собой tf-idf терминов:
Q1: как косинусное сходство, используемое k-средними, влияет на то, как строятся кластеры.
Вопрос 2: когда я использую алгоритм TF-IDF. Его производят отрицательные значения, есть ли проблема в моем расчете?
Пожалуйста, используйте следующие векторы документов VSM (tf.idf), где все они имеют разную длину вектора для пояснений.
Doc1 (0.134636045, -0.000281926, -0.000281926, -0.000281926, -0.000281926, 0)
Doc2 (-0.002354898, 0.012411358, 0.012411358, 0.09621575, 0.3815553)
Doc3(-0.001838258, 0.009688438, 0.019376876, 0.05633028, 0.59569238, 0.103366223, 0)
Я буду благодарен любому, кто может дать объяснение по моему вопросу.