Лучшее понимание сходства косинусов

Я занимаюсь небольшим исследованием интеллектуального анализа текста и интеллектуального анализа данных. Мне нужна дополнительная помощь в понимании сходства косинусов. Я читал об этом и заметил, что во всех приведенных примерах в Интернете используется tf-idf, прежде чем вычислять его через косинусное сходство.

Мой вопрос

Можно ли рассчитать косинусное сходство, просто используя распределение максимальной частоты из текстового файла, который будет набором данных. В большинстве видеороликов и руководств, которые я просматриваю, tf-idf запускался до ввода данных в косинусное сходство, если нет, то какие другие типы уравнений/алгоритмов можно ввести в косинусное сходство?

2. Почему нормализация используется с tf-idf для вычисления сходства косинусов? (могу ли я сделать это без нормализации?) Косинусное сходство вычисляется из нормализации вывода tf-idf. Зачем нужна нормализация?

3.Как косинусное сходство на самом деле влияет на веса tf-idf?


person user3809384    schedule 01.09.2014    source источник


Ответы (1)


Я не понимаю вопрос 1.

  1. Взвешивание TF-IDF — это схема взвешивания, которая хорошо работала для многих людей на реальных данных (вспомните поиск Lucene). Но теоретические основы его немного слабы. В частности, кажется, что все используют несколько иную версию... и да, это сходство весов + косинус. На практике вы можете попробовать, например. Однако вместо этого весит Okapi BM25.

  2. Я тоже не понимаю этого вопроса. Угловое сходство полезно, поскольку длина текста оказывает меньшее влияние, чем другие расстояния. Кроме того, разреженность может быть хорошо использована. Что касается весов, IDF является эвристикой только с расплывчатыми статистическими аргументами: часто встречающиеся слова с большей вероятностью встречаются случайно и, следовательно, должны иметь меньший вес.

Может быть, вы можете попытаться перефразировать свои вопросы, чтобы я мог полностью их понять. Также ищите связанные вопросы, такие как эти: Подобие косинуса и tf-idf и Лучшая кластеризация текстовых документов, чем tf /idf и косинусное сходство?

person Has QUIT--Anony-Mousse    schedule 01.09.2014
comment
Для вопроса 1) я просмотрел учебные пособия и прочитал несколько документов по косинусному сходству, все они использовали выходное значение tf-idf из набора данных, которое должно быть передано в уравнение косинусного сходства. Я хотел спросить здесь, возможно ли сделать косинусное сходство с частотным распределением вместо вывода tf-idf? 2) Почему необходимо добавить нормализацию в уравнение tf-idf при расчете сходства косинусов? то есть ||x||2 Я понимаю, что tf-idf для весов - person user3809384; 02.09.2014
comment
извините за плохой вопрос. уже отредактировал вопросы. довольно новое в этой теме. - person user3809384; 02.09.2014
comment
tf - это частота терминов... да, вы можете использовать только tf, но tf-idf работает лучше, потому что придает меньше веса часто встречающимся словам. Нормализация - посмотрите определение угла косинуса... это математика. - person Has QUIT--Anony-Mousse; 02.09.2014
comment
это будет немного не по теме, я видел ваш профиль, и вы ответили на некоторые вопросы о k-mean. Может ли k-mean использоваться для вычисления строк? Например, для кластеризации ключевых слов по категориям из базы данных текстов. Насколько я понимаю, в k-mean можно использовать только целые числа, и при сортировке 4 ключевых слов центроиды будут разделены поровну на 4 ребра, возвращая неточный результат. - person user3809384; 02.09.2014
comment
K-средние можно использовать только для векторов с плавающей запятой. Потому что он должен вычислять средства. Вы можете использовать сферические k-средние для документов, но не для ключевых слов. И ИМХО, это не очень хорошо работает. - person Has QUIT--Anony-Mousse; 02.09.2014