Я просматриваю книгу Мэннинга для поиска информации. В настоящее время я занимаюсь косинусным подобием. Мне неясно одно.
Допустим, у меня есть векторы tf-idf для запроса и документа. Я хочу вычислить косинусное сходство между обоими векторами. Когда я вычисляю величину вектора документа, суммирую ли я квадраты всех членов в векторе или только терминов в запросе?
Вот пример: у нас есть пользовательский запрос «говядина для кошачьего корма». Допустим, его вектор равен (0,1,0,1,1). (Предположим, что в векторе есть только 5 направлений, одно для каждого уникального слова в запросе и документе). У нас есть документ «Говядина восхитительна» Его вектор это (1,1,1,0,0). Мы хотим найти косинусное сходство между векторами запроса и документа.