Я использую стек Hadoop + ELK для создания аналитического стека. Я пытаюсь ежедневно обновлять индекс.
Я использую сторонние данные в формате CSV. Я не контролирую входные данные, т. Е. Не могу попросить изменить схему для CSV-файла.
Проблема в том, что в записях CSV нет уникального идентификатора, или даже объединение столбцов для создания уникального идентификатора также не сработает, поэтому при обновлении Elasticsearch в индекс добавляются повторяющиеся данные.
Итак, если данные первого дня похожи на
Product1,Language1,Date1,$1
Product2,Language2,Date1,$12
Данные дня 2 становятся
Product1,Language1,Date1,$1
Product2,Language2,Date1,$12
Product1,Language1,Date1,$1
Product2,Language2,Date1,$12
Product3,Language1,Date2,$5(new record added on day2)
Есть ли хороший способ справиться с этим в ELK. Я использую Logstash для использования файлов csv.