Статьи по теме fuzzywuzzy [python, hadoop, fuzzywuzzy, fuzzy-comparison, record-linkage]

Вопросы по теме 'fuzzywuzzy'

Сбой программы на AWS EMR с помощью hadoop (на локальном компьютере все в порядке)

Я пытаюсь использовать пакет Python fuzzywuzzy в программе сопоставления для вычисления расстояния редактирования. Моя программа отлично работает на локальном компьютере, но не работает в кластере AWS emr. Я попробовал два подхода (как на...

170 просмотров

python hadoop fuzzywuzzy

26.05.2024

Нечеткая логика для больших наборов данных с использованием Python

Моя команда застряла в запуске алгоритма нечеткой логики на двух больших наборах данных. Первое (подмножество) составляет около 180 тыс. Строк, содержащих имена, адреса и электронные письма людей, которых нам нужно сопоставить во втором...

4665 просмотров

python fuzzy-comparison fuzzywuzzy record-linkage fuzzy-logic

25.09.2023

Нечеткое сравнение двух столбцов

У меня есть CSV-файл с условиями поиска (числа и текст), который я хотел бы сравнить со списком других условий (числа и текст), чтобы определить, есть ли совпадения или потенциальные совпадения. Затем я хотел бы, чтобы все результаты были записаны в...

2679 просмотров

python fuzzy-comparison fuzzywuzzy fuzzy-logic

30.06.2023

Нечеткое сравнение между двумя столбцами улья с использованием искры apache и scala

Я читаю данные из 2 таблиц кустов. В таблице токенов есть токены, которые необходимо сопоставить с входными данными. Входные данные будут иметь столбец описания вместе с другими столбцами. Мне нужно разделить входные данные и сравнить каждый...

936 просмотров

apache-spark scala fuzzy fuzzywuzzy

28.04.2024

sklearn: хотел бы расширить CountVectorizer для нечеткого сопоставления со словарем.

Я собирался попробовать использовать fuzzywuzzy с настроенным параметром приемлемой оценки, по сути, он проверял бы, находится ли слово в словаре как есть, а если нет, то просил бы fuzzywuzzy выбрать наилучшее нечеткое совпадение и принять его для...

605 просмотров

python-3.x python scikit-learn fuzzywuzzy

30.12.2023

Нечеткое совпадение строк в одном столбце и создание нового фрейма данных с помощью fuzzywuzzy

У меня есть следующий кадр данных: df = pd.DataFrame( {'id': [1, 2, 3, 4, 5, 6], 'fruits': ['apple', 'apples', 'orange', 'apple tree', 'oranges', 'mango'] }) id fruits 0 1 apple 1 2 apples 2 3 orange 3...

1916 просмотров

python pandas fuzzy-comparison fuzzywuzzy

09.11.2022

Есть ли способ проверить, содержит ли строка почти другую строку?

Я работаю над проектом, который требует, чтобы я проверял, почти ли строка1 присутствует в строке2, если да (т.е. если она соответствует большему, чем какое-то пороговое соотношение, скажем, дельта), то мне нужно извлечь этот совпавший сегмент из...

487 просмотров

search substring algorithm approximation fuzzywuzzy

30.04.2024

Настройка нечеткого сопоставления строк для расстояния редактирования ‹= 1

Я новичок в алгоритмах, и мой вопрос может быть глупым, но как я могу указать расстояние редактирования в библиотеке fuzzywuzzy? Я хочу отредактировать расстояние ‹= 1 между двумя строками. from fuzzywuzzy import fuzz fuzz.ratio('Apple',...

430 просмотров

python algorithm fuzzy-search fuzzywuzzy

19.03.2024

TypeError: ожидаемая строка или байтовый объект.

Я запускаю этот код в python с FuzzyWuzzy , который возвращает мне эту ошибку: TypeError: ('expected string or bytes-like object', 'occurred at index CONCAT') Есть ли быстрый простой способ избежать этой ошибки? В моем файле есть Int...

5160 просмотров

python fuzzywuzzy

31.08.2022

Почему fuzzywuzzy Ratio() использует немного другую реализацию расстояния Левенштейна при вычислении отношения между двумя строками?

Я пытаюсь понять, как библиотека fuzzywuzzy вычисляет расстояние Левенштейна между двумя строками, поскольку в документах четко упоминается, что она использует это. Алгоритм расчета расстояния Левенштейна ищет минимальное количество правок между...

324 просмотров

python fuzzywuzzy levenshtein-distance

14.04.2024

import fuzzywuzzy вызывает ошибку, а from fuzzywuzzy import fuzz — нет.

При запуске следующего кода я получаю сообщение об ошибке. import fuzzywuzzy print(fuzzywuzzy.fuzz.ratio('about', 'doubt')) Сообщение об ошибке: Traceback (most recent call last): File...

84 просмотров

python import fuzzywuzzy

07.08.2022

Есть ли способ изменить этот код, чтобы сократить время выполнения?

поэтому я хочу изменить этот код, чтобы сократить время выполнения библиотеки fuzzywuzzy. В настоящее время для набора данных с 800 строками требуется около часа, а когда я использовал это для набора данных с 4,5 тыс. строк, он продолжал работать...

139 просмотров

python drop-duplicates data-cleaning fuzzywuzzy rapidfuzz

05.07.2022

Вопросы по теме 'fuzzywuzzy'

Похожие вопросы