Лучшее понимание сходства косинусов

Я занимаюсь небольшим исследованием интеллектуального анализа текста и интеллектуального анализа данных. Мне нужна дополнительная помощь в понимании сходства косинусов. Я читал об этом и заметил, что во всех приведенных примерах в Интернете используется tf-idf, прежде чем вычислять его через косинусное сходство.

Мой вопрос

Можно ли рассчитать косинусное сходство, просто используя распределение максимальной частоты из текстового файла, который будет набором данных. В большинстве видеороликов и руководств, которые я просматриваю, tf-idf запускался до ввода данных в косинусное сходство, если нет, то какие другие типы уравнений/алгоритмов можно ввести в косинусное сходство?

2. Почему нормализация используется с tf-idf для вычисления сходства косинусов? (могу ли я сделать это без нормализации?) Косинусное сходство вычисляется из нормализации вывода tf-idf. Зачем нужна нормализация?

3.Как косинусное сходство на самом деле влияет на веса tf-idf?

text-mining cosine-similarity data-mining

user3809384 01.09.2014 источник

Ответы (1)

arrow_upward
0
arrow_downward

Я не понимаю вопрос 1.

Взвешивание TF-IDF — это схема взвешивания, которая хорошо работала для многих людей на реальных данных (вспомните поиск Lucene). Но теоретические основы его немного слабы. В частности, кажется, что все используют несколько иную версию... и да, это сходство весов + косинус. На практике вы можете попробовать, например. Однако вместо этого весит Okapi BM25.
Я тоже не понимаю этого вопроса. Угловое сходство полезно, поскольку длина текста оказывает меньшее влияние, чем другие расстояния. Кроме того, разреженность может быть хорошо использована. Что касается весов, IDF является эвристикой только с расплывчатыми статистическими аргументами: часто встречающиеся слова с большей вероятностью встречаются случайно и, следовательно, должны иметь меньший вес.

Может быть, вы можете попытаться перефразировать свои вопросы, чтобы я мог полностью их понять. Также ищите связанные вопросы, такие как эти: Подобие косинуса и tf-idf и Лучшая кластеризация текстовых документов, чем tf /idf и косинусное сходство?

Has QUIT--Anony-Mousse 01.09.2014

comment

Для вопроса 1) я просмотрел учебные пособия и прочитал несколько документов по косинусному сходству, все они использовали выходное значение tf-idf из набора данных, которое должно быть передано в уравнение косинусного сходства. Я хотел спросить здесь, возможно ли сделать косинусное сходство с частотным распределением вместо вывода tf-idf? 2) Почему необходимо добавить нормализацию в уравнение tf-idf при расчете сходства косинусов? то есть ||x||2 Я понимаю, что tf-idf для весов - user3809384; 02.09.2014

comment

извините за плохой вопрос. уже отредактировал вопросы. довольно новое в этой теме. - user3809384; 02.09.2014

comment

tf - это частота терминов... да, вы можете использовать только tf, но tf-idf работает лучше, потому что придает меньше веса часто встречающимся словам. Нормализация - посмотрите определение угла косинуса... это математика. - Has QUIT--Anony-Mousse; 02.09.2014

comment

это будет немного не по теме, я видел ваш профиль, и вы ответили на некоторые вопросы о k-mean. Может ли k-mean использоваться для вычисления строк? Например, для кластеризации ключевых слов по категориям из базы данных текстов. Насколько я понимаю, в k-mean можно использовать только целые числа, и при сортировке 4 ключевых слов центроиды будут разделены поровну на 4 ребра, возвращая неточный результат. - user3809384; 02.09.2014

comment

K-средние можно использовать только для векторов с плавающей запятой. Потому что он должен вычислять средства. Вы можете использовать сферические k-средние для документов, но не для ключевых слов. И ИМХО, это не очень хорошо работает. - Has QUIT--Anony-Mousse; 02.09.2014

Лучшее понимание сходства косинусов

Ответы (1)

Похожие вопросы