Устранение дубликатов в MongoDB с помощью определенного вида

У меня есть база данных, состоящая из записей, соответствующих трудовым договорам. В базе данных MongoDB я сгруппировал по конкретным работникам, тогда база данных - в упрощенной версии - выглядит примерно так.

{
    "_id" : ObjectId("5ea995662a40c63b14266071"),
    "worker" : "1070",
    "employer" : "2116096",
    "start" : ISODate("2018-01-11T01:00:00.000+01:00"),
    "ord_id" : 0
},
{
    "_id" : ObjectId("5ea995662a40c63b14266071"),
    "worker" : "1070",
    "employer" : "2116096",
    "start" : ISODate("2018-01-11T01:00:00.000+01:00"),
    "ord_id" : 1
},
{
    "_id" : ObjectId("5ea995662a40c63b14266072"),
    "worker" : "1071",
    "employer" : "2116055",
    "start" : ISODate("2019-01-03T01:00:00.000+01:00"),
    "ord_id" : 2
},
{
    "_id" : ObjectId("5ea995662a40c63b14266072"),
    "worker" : "1071",
    "employer" : "2116056",
    "start" : ISODate("2019-01-03T01:00:00.000+01:00"),
    "ord_id" : 3
},

Переставил по рабочим

{
    "_id" : ObjectId("5ea995662a40c63b14266071"),
    "worker" : "1070",
    "contratcs" : [
             {
               "employer" : "2116096",
               "start" : ISODate("2018-01-11T01:00:00.000+01:00"),
               "ord_id" : 0
             },
             {
               "employer" : "2116096",  
               "start" : ISODate("2018-01-11T01:00:00.000+01:00"),
               "ord_id" : 1
             } // Since employer identification and starting date is the same of the previous, this is a duplicate!
         ]
},
{
    "_id" : ObjectId("5ea995662a40c63b14266072"),
    "worker" : "1701",
    "contratcs" : [
             {
               "employer" : "2116055",
               "start" : ISODate("2019-01-03T01:00:00.000+01:00"),
               "ord_id" : 2
             },
             {
               "employer" : "2116056",
               "start" : ISODate("2019-01-04T01:00:00.000+01:00"),
               "ord_id" : 3
             }
         ]
}

Из исходной таблицы некоторые контракты были проверены дважды, поэтому я должен сохранить только один. Более конкретно (в этом примере) я рассматриваю дубликаты этих контрактов (для одного и того же работника), заключенных в один и тот же день и с одним и тем же работодателем. Однако должен быть правильный выбор, какой дубликат сохранить, а какой нет (это не зависит от меня). По сути, есть поле с именем 'ord_id' (я создал базу данных в MongoDB), которое является числом и уникально (следовательно, среди дубликатов это единственный термин, который на самом деле отличается). По сути, я должен сохранить среди дубликатов те, у которых наивысшее значение «ord_id». Следуя этой ветке, я написал:

db.mycollection.aggregate([
    { $unwind: "$contracts" },
    { $group: {
        _id: { WORKER: "$worker", START: "$contracts.start" },
        dups: { $addToSet: "$_id" },
        ord_id: { $addToSet: "$contracts.ord_id" },
        count:  {$sum: 1 }
        }
    },
    { $match: { count: { $gt: 1} } },
    { $sort: {count: -1, ord_id: -1 } }
],{allowDiskUse: true}).
forEach(function(doc) {
    doc.dups.shift();     
    db.mycollection.remove({_id : {$in: doc.dups }});  
});

Несмотря на то, что при агрегировании по контрактам у меня возникают проблемы с устранением, я хотел бы сдвинуть (а затем сохранить) дубликаты на тот, у которого наивысшее значение 'ord_id'. Я все еще новичок в MongoDB и все еще нахожусь в фазе мысленного перехода от в основном реляционного (SQL) подхода. Извинитесь за глупый вопрос.

mongodb drop-duplicates

Nicola Caravaggio 29.04.2020 источник

Ответы (2)

arrow_upward
1
arrow_downward

Эта агрегация вернет желаемый результат - удаляет дубликат на основе "работник + работодатель + начало contracts" и сохраняет только контракт с наивысшим ord_id (из дубликатов).

db.collection.aggregate( [
  { 
      $unwind: "$contracts" 
  },
  { 
      $group: { 
           _id: { worker: "$worker", employer: "$contracts.employer", start: "$contracts.start" },
           max_ord: { $max: "$contracts.ord_id" },
           doc: { $first: "$$ROOT" }
      } 
  },
  { 
      $group: {
          _id: { _id: "$doc._id", worker: "$doc.worker" },
          contracts: { $push: { employer: "$_id.employer", start: "$_id.start", ord_id: "$ords" } }
      }
  },
  { 
      $addFields: {
          _id: "$_id._id", 
          worker: "$_id.worker"
      }
  } 
] )

prasad_ 30.04.2020

comment

Я немного адаптировал код под свои нужды, и он работал правильно, спасибо! - Nicola Caravaggio; 06.05.2020

arrow_upward
1
arrow_downward

Если вы выполняете обратную сортировку по ord_id, вы можете использовать $first на этапе $group для выбора наивысшего значения. Этот пример вернет весь документ в doc, а также количество дубликатов:

db.mycollection.aggregate([
    { $unwind: "$contracts" },
    { $sort: {"$contracts.ord_id":-1}},
    { $group: {
        _id: { WORKER: "$worker", START: "$contracts.start", EMPLOYER: "$contracts.employer" },
        doc: { $first: "$$ROOT" },
        count:  {$sum: 1 }
    }}
],{allowDiskUse: true})

Joe 29.04.2020

Устранение дубликатов в MongoDB с помощью определенного вида

Ответы (2)

Похожие вопросы