В одной записи (объект JSON) у нас есть
{
"name": "ID",
"value": "4260567,4260556"
}
В другой записи у нас есть
{
"name": "ID",
"value": {}
}
Моя проблема заключается в том, что этот набор данных не может быть запрошен в Apache Drill из-за того, что для одного поля используются разные типы — строки в одном случае и объекты в других. Я также не могу заменить {} на "" по всем направлениям, потому что есть другие поля, которые на самом деле должны быть объектами, с которыми это вызовет ту же проблему.
Моя идея состоит в том, чтобы написать некоторый код для загрузки в пакет данных, а также пройти поле за полем, перепроверить записи и исправить эти несоответствия типов. Например, если он увидит, что большинство записей в этом поле идентификатора являются строками и лишь некоторые из них являются пустыми объектами, он преобразует их в пустые строки. Если он увидит, что некоторые значения являются массивами/списками, а другие значения в том же поле являются отдельными объектами, он преобразует эти отдельные объекты в массивы/списки. Такие вещи.
Однако это довольно большая задача только для одного набора данных. Есть ли другие способы решить эту проблему?