У меня есть следующий набор данных, к которому я надеюсь применить некоторую пользовательскую логику:
data = pd.DataFrame({'ID': ['A','B','B','C','C','D','D'],
'Date': ['2018-07-02T02:21:12.000+0000','2018-07-02T02:28:29.000+0000','2018-07-02T02:28:31.000+0000','2018-07-02T02:30:58.000+0000','2018-07-02T02:31:01.000+0000','2018-07-02T02:42:46.000+0000','2018-07-02T02:41:47.000+0000'],
'Action': ['Start','Start','Start','Stop','Stop','Start','Start'],
'Group': [5,13,13,19,19,2,2],
'Value': [100,110,110,95,95,280,280]
})
Строки 1:2, 3:4 и 5:6 идентичны, за исключением значений в столбце «Дата», которые отличаются на несколько секунд. Есть ли способ удалить дубликаты, если 1) временная дельта «даты» между похожими строками меньше 1 минуты и 2) вся остальная информация идентична?
Результат должен выглядеть следующим образом:
result = pd.DataFrame({
'ID': ['A','B','C','D'],
'Date': ['2018-07-02T02:21:12.000+0000','2018-07-02T02:28:29.000+0000','2018-07-02T02:30:58.000+0000','2018-07-02T02:42:46.000+0000'],
'Action': ['Start','Start','Stop','Start'],
'Group': [5,13,19,2],
'Value': [100,110,95,280]
})