Вопросы по теме 'fuzzywuzzy'

Сбой программы на AWS EMR с помощью hadoop (на локальном компьютере все в порядке)
Я пытаюсь использовать пакет Python fuzzywuzzy в программе сопоставления для вычисления расстояния редактирования. Моя программа отлично работает на локальном компьютере, но не работает в кластере AWS emr. Я попробовал два подхода (как на...
170 просмотров
schedule 26.05.2024

Нечеткая логика для больших наборов данных с использованием Python
Моя команда застряла в запуске алгоритма нечеткой логики на двух больших наборах данных. Первое (подмножество) составляет около 180 тыс. Строк, содержащих имена, адреса и электронные письма людей, которых нам нужно сопоставить во втором...
4665 просмотров

Нечеткое сравнение двух столбцов
У меня есть CSV-файл с условиями поиска (числа и текст), который я хотел бы сравнить со списком других условий (числа и текст), чтобы определить, есть ли совпадения или потенциальные совпадения. Затем я хотел бы, чтобы все результаты были записаны в...
2679 просмотров

Нечеткое сравнение между двумя столбцами улья с использованием искры apache и scala
Я читаю данные из 2 таблиц кустов. В таблице токенов есть токены, которые необходимо сопоставить с входными данными. Входные данные будут иметь столбец описания вместе с другими столбцами. Мне нужно разделить входные данные и сравнить каждый...
936 просмотров
schedule 28.04.2024

sklearn: хотел бы расширить CountVectorizer для нечеткого сопоставления со словарем.
Я собирался попробовать использовать fuzzywuzzy с настроенным параметром приемлемой оценки, по сути, он проверял бы, находится ли слово в словаре как есть, а если нет, то просил бы fuzzywuzzy выбрать наилучшее нечеткое совпадение и принять его для...
605 просмотров

Нечеткое совпадение строк в одном столбце и создание нового фрейма данных с помощью fuzzywuzzy
У меня есть следующий кадр данных: df = pd.DataFrame( {'id': [1, 2, 3, 4, 5, 6], 'fruits': ['apple', 'apples', 'orange', 'apple tree', 'oranges', 'mango'] }) id fruits 0 1 apple 1 2 apples 2 3 orange 3...
1916 просмотров

Есть ли способ проверить, содержит ли строка почти другую строку?
Я работаю над проектом, который требует, чтобы я проверял, почти ли строка1 присутствует в строке2, если да (т.е. если она соответствует большему, чем какое-то пороговое соотношение, скажем, дельта), то мне нужно извлечь этот совпавший сегмент из...
487 просмотров

Настройка нечеткого сопоставления строк для расстояния редактирования ‹= 1
Я новичок в алгоритмах, и мой вопрос может быть глупым, но как я могу указать расстояние редактирования в библиотеке fuzzywuzzy? Я хочу отредактировать расстояние ‹= 1 между двумя строками. from fuzzywuzzy import fuzz fuzz.ratio('Apple',...
430 просмотров
schedule 19.03.2024

TypeError: ожидаемая строка или байтовый объект.
Я запускаю этот код в python с FuzzyWuzzy , который возвращает мне эту ошибку: TypeError: ('expected string or bytes-like object', 'occurred at index CONCAT') Есть ли быстрый простой способ избежать этой ошибки? В моем файле есть Int...
5160 просмотров
schedule 31.08.2022

Почему fuzzywuzzy Ratio() использует немного другую реализацию расстояния Левенштейна при вычислении отношения между двумя строками?
Я пытаюсь понять, как библиотека fuzzywuzzy вычисляет расстояние Левенштейна между двумя строками, поскольку в документах четко упоминается, что она использует это. Алгоритм расчета расстояния Левенштейна ищет минимальное количество правок между...
324 просмотров
schedule 14.04.2024

import fuzzywuzzy вызывает ошибку, а from fuzzywuzzy import fuzz — нет.
При запуске следующего кода я получаю сообщение об ошибке. import fuzzywuzzy print(fuzzywuzzy.fuzz.ratio('about', 'doubt')) Сообщение об ошибке: Traceback (most recent call last): File...
84 просмотров
schedule 07.08.2022

Есть ли способ изменить этот код, чтобы сократить время выполнения?
поэтому я хочу изменить этот код, чтобы сократить время выполнения библиотеки fuzzywuzzy. В настоящее время для набора данных с 800 строками требуется около часа, а когда я использовал это для набора данных с 4,5 тыс. строк, он продолжал работать...
139 просмотров