Скрытое семантическое индексирование

Говорят, что с помощью LSI, матриц, которые создаются U, A и V, они объединяют документы, которые имеют синонимы. Например, если мы ищем «автомобиль», мы также получаем документы, в которых есть «автомобиль». Но LSI — это не что иное, как манипуляции с матрицами. Он учитывает только частоту, а не семантику. Так что же стоит за этой магией, которую мне не хватает? Пожалуйста, объясни.

algorithm latent-semantic-indexing

avd 20.11.2009 источник

Ответы (2)

arrow_upward
0
arrow_downward

LSI в основном создает частотный профиль каждого документа и ищет документы с похожими частотными профилями. Если остальная часть частотного профиля достаточно схожа, он классифицирует два документа как достаточно похожие, даже если в одном из них некоторые слова систематически заменяются. И наоборот, если частотные профили различны, он может/будет классифицировать документы как разные, даже если они часто используют несколько конкретных терминов (например, «файл» в некоторых случаях относится к компьютеру, а вещь, которая используется для резать и гладить металл в других случаях).

LSI также обычно используется с относительно большими группами документов. Другие документы также могут помочь найти сходство — даже если документы A и B выглядят существенно по-разному, если документ C использует довольно много терминов как из A, так и из B, это может помочь в обнаружении того, что A и B действительно довольно похожи.

Jerry Coffin 21.11.2009

arrow_upward
0
arrow_downward

Согласно статье в Википедии, "LSI основана на том принципе, что слова, используемые в одни и те же контексты, как правило, имеют схожие значения». То есть, если два слова кажутся взаимозаменяемыми, они могут быть синонимами.

Это не безошибочно.

Jason Orendorff 20.11.2009

comment

Я не понимаю, как он понимает сходство между автомобилем и автомобилем. Если это частота, то скажите, что какое-то другое слово (имеющее совершенно другое значение) также имеет такую же частоту, как автомобиль и автомобиль, тогда оно будет ложно сопоставлять это слово и с автомобилем. - avd; 20.11.2009

comment

Похоже, что LSI собирается пометить два слова как семантически связанные, если их частота коррелирует во многих документах. Это кажется довольно наивным способом сделать это, да. Есть люди, пытающиеся сделать что-то подобное, но опускаясь до уровня предложения, чтобы увидеть, какие слова связаны между собой, что на первый взгляд звучит более многообещающе. - Jason Orendorff; 20.11.2009

comment

Между прочим, если кто-то пытается продать вам LSI, не покупайте его. - Jason Orendorff; 20.11.2009

comment

Собственно изучаю LSI для своего проекта по поиску в P2P сетях. - avd; 20.11.2009

Скрытое семантическое индексирование

Ответы (2)

Похожие вопросы