Вопросы по теме 'drop-duplicates'

Почему PySpark dropDuplicates and Join дает НЕЧЕТНЫЕ результаты
PySpark дает мне немного странные результаты после dropDuplicates и объединения наборов данных. Ситуация такова, что есть два очень больших набора данных: один с идентификатором людей и некоторыми переменными, а второй с их кодом региона. первый...
290 просмотров
schedule 16.01.2024

Пользовательская логика для удаления дубликатов
У меня есть следующий набор данных, к которому я надеюсь применить некоторую пользовательскую логику: data = pd.DataFrame({'ID': ['A','B','B','C','C','D','D'], 'Date':...
258 просмотров
schedule 06.03.2023

Устранение дубликатов в MongoDB с помощью определенного вида
У меня есть база данных, состоящая из записей, соответствующих трудовым договорам. В базе данных MongoDB я сгруппировал по конкретным работникам, тогда база данных - в упрощенной версии - выглядит примерно так. { "_id" :...
52 просмотров
schedule 10.07.2022

Есть ли способ изменить этот код, чтобы сократить время выполнения?
поэтому я хочу изменить этот код, чтобы сократить время выполнения библиотеки fuzzywuzzy. В настоящее время для набора данных с 800 строками требуется около часа, а когда я использовал это для набора данных с 4,5 тыс. строк, он продолжал работать...
139 просмотров