Вопросы по теме 'fuzzywuzzy'
Сбой программы на AWS EMR с помощью hadoop (на локальном компьютере все в порядке)
Я пытаюсь использовать пакет Python fuzzywuzzy в программе сопоставления для вычисления расстояния редактирования. Моя программа отлично работает на локальном компьютере, но не работает в кластере AWS emr. Я попробовал два подхода (как на...
170 просмотров
schedule
26.05.2024
Нечеткая логика для больших наборов данных с использованием Python
Моя команда застряла в запуске алгоритма нечеткой логики на двух больших наборах данных. Первое (подмножество) составляет около 180 тыс. Строк, содержащих имена, адреса и электронные письма людей, которых нам нужно сопоставить во втором...
4665 просмотров
schedule
25.09.2023
Нечеткое сравнение двух столбцов
У меня есть CSV-файл с условиями поиска (числа и текст), который я хотел бы сравнить со списком других условий (числа и текст), чтобы определить, есть ли совпадения или потенциальные совпадения. Затем я хотел бы, чтобы все результаты были записаны в...
2679 просмотров
schedule
30.06.2023
Нечеткое сравнение между двумя столбцами улья с использованием искры apache и scala
Я читаю данные из 2 таблиц кустов. В таблице токенов есть токены, которые необходимо сопоставить с входными данными. Входные данные будут иметь столбец описания вместе с другими столбцами. Мне нужно разделить входные данные и сравнить каждый...
936 просмотров
schedule
28.04.2024
sklearn: хотел бы расширить CountVectorizer для нечеткого сопоставления со словарем.
Я собирался попробовать использовать fuzzywuzzy с настроенным параметром приемлемой оценки, по сути, он проверял бы, находится ли слово в словаре как есть, а если нет, то просил бы fuzzywuzzy выбрать наилучшее нечеткое совпадение и принять его для...
605 просмотров
schedule
30.12.2023
Нечеткое совпадение строк в одном столбце и создание нового фрейма данных с помощью fuzzywuzzy
У меня есть следующий кадр данных:
df = pd.DataFrame(
{'id': [1, 2, 3, 4, 5, 6],
'fruits': ['apple', 'apples', 'orange', 'apple tree', 'oranges', 'mango']
})
id fruits
0 1 apple
1 2 apples
2 3 orange
3...
1916 просмотров
schedule
09.11.2022
Есть ли способ проверить, содержит ли строка почти другую строку?
Я работаю над проектом, который требует, чтобы я проверял, почти ли строка1 присутствует в строке2, если да (т.е. если она соответствует большему, чем какое-то пороговое соотношение, скажем, дельта), то мне нужно извлечь этот совпавший сегмент из...
487 просмотров
schedule
30.04.2024
Настройка нечеткого сопоставления строк для расстояния редактирования ‹= 1
Я новичок в алгоритмах, и мой вопрос может быть глупым, но как я могу указать расстояние редактирования в библиотеке fuzzywuzzy? Я хочу отредактировать расстояние ‹= 1 между двумя строками.
from fuzzywuzzy import fuzz
fuzz.ratio('Apple',...
430 просмотров
schedule
19.03.2024
TypeError: ожидаемая строка или байтовый объект.
Я запускаю этот код в python с FuzzyWuzzy , который возвращает мне эту ошибку:
TypeError: ('expected string or bytes-like object', 'occurred at index CONCAT')
Есть ли быстрый простой способ избежать этой ошибки? В моем файле есть Int...
5160 просмотров
schedule
31.08.2022
Почему fuzzywuzzy Ratio() использует немного другую реализацию расстояния Левенштейна при вычислении отношения между двумя строками?
Я пытаюсь понять, как библиотека fuzzywuzzy вычисляет расстояние Левенштейна между двумя строками, поскольку в документах четко упоминается, что она использует это.
Алгоритм расчета расстояния Левенштейна ищет минимальное количество правок между...
324 просмотров
schedule
14.04.2024
import fuzzywuzzy вызывает ошибку, а from fuzzywuzzy import fuzz — нет.
При запуске следующего кода я получаю сообщение об ошибке.
import fuzzywuzzy
print(fuzzywuzzy.fuzz.ratio('about', 'doubt'))
Сообщение об ошибке:
Traceback (most recent call last):
File...
84 просмотров
schedule
07.08.2022
Есть ли способ изменить этот код, чтобы сократить время выполнения?
поэтому я хочу изменить этот код, чтобы сократить время выполнения библиотеки fuzzywuzzy. В настоящее время для набора данных с 800 строками требуется около часа, а когда я использовал это для набора данных с 4,5 тыс. строк, он продолжал работать...
139 просмотров
schedule
05.07.2022