Я проиндексировал данные в своем ядре SOLR с помощью команды CURL, где данные были в формате CSV. Команда была curl 'http://localhost:8983/solr/my_collection/update?commit=true' --data-binary @my_docs.csv -H 'Content-type:application/csv'
Данные успешно импортированы, но возникла проблема с полем multiValued. В моем файле .csv значение для поля multiValued было таким "['parking','garden','spa']"
, поэтому теперь импортированные данные в моем ядре solr выглядят с дополнительными двойными кавычками в формате ниже.
"amenities": [
"['parking', 'garden', 'spa']"
^ ^
]
Чтобы удалить эти двойные кавычки из моего поля multiValued, я попробовал этот способ из раздела «Документ» раздела пользовательского интерфейса SOLR ADMIN, и мне удалось выполнить атомарное обновление с этим форматом JSON.
{
"id":"2118506",
"amenities":{"set":["parking", "garden", "spa""]},
}
Я знаю, что могу атомарно обновить весь индексный документ, используя этот способ, отправив запрос curl на solr с помощью SET, но в данный момент это сложно для меня, потому что я уже проиндексировал 20 миллионов документов.
Поэтому я просто хочу знать, есть ли способ удалить двойные кавычки из поля multiValued во время запроса или какой-либо более разумный способ удалить двойные кавычки из значения поля с помощью одной команды curl без указания идентификаторов отдельных документов
Примечание Сейчас мне сложно удалить двойные кавычки из каждого CSV-файла и попытаться переиндексировать документы.