Вопросы по теме 'similarity'
C # сравнение похожих строк
У меня есть общий с некоторыми именами файлов (LIST1) и еще один biggeneric с полным списком имен (LIST2). Мне нужно сопоставить имена из LIST1 с аналогичными в LIST2. Например
LIST1
- **MAIZE_SLIP_QUANTITY_3_9.1.aif**
LIST 2
1-...
7850 просмотров
schedule
16.02.2024
Совместная фильтрация: неперсонализированное сходство между элементами
Я пытаюсь вычислить сходство между товарами по принципу Amazon «Клиенты, которые просматривали/покупали X, также просматривали/покупали Y и Z». Все примеры и ссылки, которые я видел, предназначены либо для вычисления сходства элементов для...
4505 просмотров
schedule
28.03.2024
Обнаруживать дублированный/похожий текст среди больших наборов данных?
У меня есть большая база данных с тысячами записей. Каждый раз, когда пользователь публикует свою информацию, мне нужно знать, есть ли уже такая же/похожая запись. Существуют ли какие-либо алгоритмы или реализации с открытым исходным кодом для...
2690 просмотров
schedule
19.10.2022
Сходство строк в PHP: функция типа levenshtein для длинных строк
Функция levenshtein в PHP работает со строками с максимальной длиной 255. Каковы хорошие альтернативы для вычисления оценки схожести предложений в PHP.
В основном у меня есть база предложений, и я хочу найти приблизительные дубликаты....
9908 просмотров
schedule
31.10.2022
Смещение синсета Wordnet? Как сравнивать слова
Я использую китайский Wordnet от Academic Sinica. Это перевод Wordnet 1.6. К сожалению, его нет в свободном доступе, и его нужно покупать, и в руководстве в основном говорится, что обратитесь к руководству Wordnet. Я пытаюсь понять, как сравнить...
2933 просмотров
schedule
30.09.2023
Оценка сходства - Левенштейн
Я реализовал алгоритм Левенштейна на Java и теперь получаю исправления, сделанные алгоритмом, также известные как стоимость. Это немного помогает, но не сильно, так как мне нужны результаты в процентах.
Поэтому я хочу знать, как рассчитать эти...
26466 просмотров
schedule
07.08.2022
Сходство Жаккара в Lucene
Мне нужно рассчитать сходство запроса и документа в Lucene, используя сходство Жаккара по n-граммам. Поскольку сходство Jaccard является очень распространенным показателем в IR, я ожидал найти для него реализацию Lucene, но не смог.
Кто-нибудь...
2395 просмотров
schedule
04.07.2023
Как рассчитать открытость документов с помощью Lucene.NET
Представьте, что у меня есть огромная база данных тем и сообщений (около 10.000.000 записей) с разных форумов, включая несколько подфорумов, которые служат моими lucene-документами.
Теперь я пытаюсь рассчитать функцию под названием «Актуальность»...
459 просмотров
schedule
03.06.2022
Матрица подобия - ›алгоритм векторов признаков?
Если у нас есть набор из M слов, и мы заранее знаем схожесть значений каждой пары слов (у нас есть матрица сходств M x M), какой алгоритм мы можем использовать для создания одного k-мерного битового вектора для каждого слова , чтобы каждую пару слов...
2021 просмотров
schedule
27.02.2022
Как найти наиболее похожий коммит на измененный файл?
Недавно я получил модификацию моего файла, который я поставил под контроль версий, но я не могу определить, на каком коммите основан этот измененный файл.
Итак, есть ли способ определить, какая фиксация, изменяющая данный файл, меньше всего...
327 просмотров
schedule
16.02.2022
Каков эффективный способ измерения сходства между двумя строками? (Расстояние Левенштейна делает стек слишком глубоким)
Итак, я начал с этого: http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance#Ruby
Что отлично работает для очень маленьких строк. Но мои строки могут иметь длину более 10 000 символов, и, поскольку расстояние...
2584 просмотров
schedule
14.04.2023
Библиотека Java для сравнения сходства изображений
Я потратил довольно много времени на поиск библиотеки, которая позволяет мне сравнивать изображения друг с другом в Java.
На самом деле я не нашел ничего полезного, возможно, мои навыки поиска в Google недостаточно высоки, поэтому я подумал, что...
76221 просмотров
schedule
23.05.2024
Подсчитайте, сколько повторяющихся символов есть в двух строках
Я ломал голову в течение последнего часа, задаваясь вопросом, как это сделать. Думаю, это больше логический вопрос, чем технический.
У меня есть две строки, и я хочу подсчитать, сколько у них общих символов. То есть Эмили + Энди = 1.
Я думал,...
7703 просмотров
schedule
22.04.2024
Почему функция LogLikelihoodSimilarity возвращает значения больше 1,0 для набора данных, состоящего из 0 и 1?
У меня есть большой набор данных о предпочтениях, которые выражены как 1.0, и я использую функции сходства Tanimoto и общие логические рекомендации по предпочтениям пользователей и предметов. Рекомендации обычно представляют собой значения от 0 до...
485 просмотров
schedule
07.12.2023
Создание меры сходства, взвешенной по диапазону столбцов
Рассмотрим следующую матрицу:
structure(list(X1 = c(1L, 2L, 3L, 4L, 2L, 5L), X2 = c(2L, 3L,
4L, 5L, 3L, 6L), X3 = c(3L, 4L, 4L, 5L, 3L, 2L), X4 = c(2L, 4L,
6L, 5L, 3L, 8L), X5 = c(1L, 3L, 2L, 4L, 6L, 4L)), .Names = c("X1",
"X2", "X3", "X4",...
371 просмотров
schedule
18.03.2024
Создайте локальные функции для каждой ключевой точки с помощью SIFT
У меня есть изображение, и я хочу найти ключевые точки с помощью детектора SIFT и сгруппировать их, затем я хочу сгенерировать локальные функции для каждой ключевой точки с помощью SIFT, не могли бы вы помочь мне, как я могу это сделать? Пожалуйста,...
775 просмотров
schedule
03.02.2023
Метрика Javascript Clusterfck
Итак, я перевожу старую визуализацию данных на новую платформу, и я немного застрял в их функции сортировки сообщества. В исходном коде похоже, что автор использует агломеративную кластеризацию с калькулятором косинусного сходства. Я решил, что...
510 просмотров
schedule
27.03.2024
Визуально идентичные символы в Unicode
Я хочу найти визуально идентичные символы для определенного символа в Unicode. Я знаю, как найти канонические или совместимые разложения персонажа; но они не дают мне то, что я хочу. Я хочу найти персонажей, которые визуально идентичны (не похожи),...
1889 просмотров
schedule
15.10.2023
Нормализация по максимальному значению или по общему значению?
Я делаю некоторую работу, связанную со сравнением документов. Для этого я анализирую каждый документ и в основном подсчитываю, сколько раз некоторые ключевые слова встречаются в каждом из этих документов. Например:
Document 1:...
3518 просмотров
schedule
29.06.2022
Какие слова опустить?
Я пытаюсь найти некоторую меру сходства между двумя предложениями. Для этого я использую индивидуальное семантическое сходство двух слов. Но в словаре много слов, которые я составляю из имеющихся у меня предложений. Я хочу исключить из предложений...
256 просмотров
schedule
06.01.2024