Статьи по теме drop-duplicates

Вопросы по теме 'drop-duplicates'

Почему PySpark dropDuplicates and Join дает НЕЧЕТНЫЕ результаты

PySpark дает мне немного странные результаты после dropDuplicates и объединения наборов данных. Ситуация такова, что есть два очень больших набора данных: один с идентификатором людей и некоторыми переменными, а второй с их кодом региона. первый...

290 просмотров

16.01.2024

Пользовательская логика для удаления дубликатов

У меня есть следующий набор данных, к которому я надеюсь применить некоторую пользовательскую логику: data = pd.DataFrame({'ID': ['A','B','B','C','C','D','D'], 'Date':...

258 просмотров

python pandas drop-duplicates

06.03.2023

Устранение дубликатов в MongoDB с помощью определенного вида

У меня есть база данных, состоящая из записей, соответствующих трудовым договорам. В базе данных MongoDB я сгруппировал по конкретным работникам, тогда база данных - в упрощенной версии - выглядит примерно так. { "_id" :...

52 просмотров

mongodb drop-duplicates

10.07.2022

Есть ли способ изменить этот код, чтобы сократить время выполнения?

поэтому я хочу изменить этот код, чтобы сократить время выполнения библиотеки fuzzywuzzy. В настоящее время для набора данных с 800 строками требуется около часа, а когда я использовал это для набора данных с 4,5 тыс. строк, он продолжал работать...

139 просмотров

python drop-duplicates data-cleaning fuzzywuzzy rapidfuzz

05.07.2022

Вопросы по теме 'drop-duplicates'

Похожие вопросы