Скрытое семантическое индексирование

Говорят, что с помощью LSI, матриц, которые создаются U, A и V, они объединяют документы, которые имеют синонимы. Например, если мы ищем «автомобиль», мы также получаем документы, в которых есть «автомобиль». Но LSI — это не что иное, как манипуляции с матрицами. Он учитывает только частоту, а не семантику. Так что же стоит за этой магией, которую мне не хватает? Пожалуйста, объясни.


person avd    schedule 20.11.2009    source источник


Ответы (2)


LSI в основном создает частотный профиль каждого документа и ищет документы с похожими частотными профилями. Если остальная часть частотного профиля достаточно схожа, он классифицирует два документа как достаточно похожие, даже если в одном из них некоторые слова систематически заменяются. И наоборот, если частотные профили различны, он может/будет классифицировать документы как разные, даже если они часто используют несколько конкретных терминов (например, «файл» в некоторых случаях относится к компьютеру, а вещь, которая используется для резать и гладить металл в других случаях).

LSI также обычно используется с относительно большими группами документов. Другие документы также могут помочь найти сходство — даже если документы A и B выглядят существенно по-разному, если документ C использует довольно много терминов как из A, так и из B, это может помочь в обнаружении того, что A и B действительно довольно похожи.

person Jerry Coffin    schedule 21.11.2009

Согласно статье в Википедии, "LSI основана на том принципе, что слова, используемые в одни и те же контексты, как правило, имеют схожие значения». То есть, если два слова кажутся взаимозаменяемыми, они могут быть синонимами.

Это не безошибочно.

person Jason Orendorff    schedule 20.11.2009
comment
Я не понимаю, как он понимает сходство между автомобилем и автомобилем. Если это частота, то скажите, что какое-то другое слово (имеющее совершенно другое значение) также имеет такую ​​же частоту, как автомобиль и автомобиль, тогда оно будет ложно сопоставлять это слово и с автомобилем. - person avd; 20.11.2009
comment
Похоже, что LSI собирается пометить два слова как семантически связанные, если их частота коррелирует во многих документах. Это кажется довольно наивным способом сделать это, да. Есть люди, пытающиеся сделать что-то подобное, но опускаясь до уровня предложения, чтобы увидеть, какие слова связаны между собой, что на первый взгляд звучит более многообещающе. - person Jason Orendorff; 20.11.2009
comment
Между прочим, если кто-то пытается продать вам LSI, не покупайте его. - person Jason Orendorff; 20.11.2009
comment
Собственно изучаю LSI для своего проекта по поиску в P2P сетях. - person avd; 20.11.2009