Говорят, что с помощью LSI, матриц, которые создаются U, A и V, они объединяют документы, которые имеют синонимы. Например, если мы ищем «автомобиль», мы также получаем документы, в которых есть «автомобиль». Но LSI — это не что иное, как манипуляции с матрицами. Он учитывает только частоту, а не семантику. Так что же стоит за этой магией, которую мне не хватает? Пожалуйста, объясни.
Скрытое семантическое индексирование
Ответы (2)
LSI в основном создает частотный профиль каждого документа и ищет документы с похожими частотными профилями. Если остальная часть частотного профиля достаточно схожа, он классифицирует два документа как достаточно похожие, даже если в одном из них некоторые слова систематически заменяются. И наоборот, если частотные профили различны, он может/будет классифицировать документы как разные, даже если они часто используют несколько конкретных терминов (например, «файл» в некоторых случаях относится к компьютеру, а вещь, которая используется для резать и гладить металл в других случаях).
LSI также обычно используется с относительно большими группами документов. Другие документы также могут помочь найти сходство — даже если документы A и B выглядят существенно по-разному, если документ C использует довольно много терминов как из A, так и из B, это может помочь в обнаружении того, что A и B действительно довольно похожи.
Согласно статье в Википедии, "LSI основана на том принципе, что слова, используемые в одни и те же контексты, как правило, имеют схожие значения». То есть, если два слова кажутся взаимозаменяемыми, они могут быть синонимами.
Это не безошибочно.