Распознавание именованных сущностей в Solr

Я пытаюсь импортировать данные в solr из mysql с помощью обработчика импорта данных. Теперь я хочу идентифицировать сущности имен из него. Я использую окно поиска (http://www.searchbox.com/named-entity-recognition-ner-in-solr/). где я использую stanfordner для определения именных сущностей.

<requestHandler name="/dataimport"
class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
 <str name="config">data-import.xml</str>
 </lst>
</requestHandler>

для импорта данных из mysql и

<requestHandler name="/ner" class="com.searchbox.ner.NerHandler" />
  <updateRequestProcessorChain name="mychain" >
   <processor class="com.searchbox.ner.NerProcessorFactory" >
     <lst name="queryFields">
       <str name="queryField">content</str>
     </lst>
   </processor>
   <processor class="solr.LogUpdateProcessorFactory" />
   <processor class="solr.RunUpdateProcessorFactory" />
 </updateRequestProcessorChain>

 <requestHandler name="/update" class="solr.UpdateRequestHandler">
       <lst name="defaults">
         <str name="update.chain">mychain</str>
       </lst>
  </requestHandler>

для идентификации сущностей имени. Обработчик запроса NER идентифицирует сущности имени из поля содержимого, но сохраняет извлеченные сущности в полях solr.

Обработчик запросов NER работал, когда я использую nutch с solr. Но когда я импортирую данные из mysql, обработчик запросов не вызывается. Таким образом, сущности не хранятся в solr для импортированных документов. Может ли кто-нибудь сказать мне, как вызвать пользовательский обработчик запросов в обработчике импорта данных.

В противном случае, если я могу вызвать обработчик запросов извне, чтобы он мог индексировать человека, организацию и местоположение в solr для импортированного документа. Любые предложения приветствуются.


person user2830876    schedule 31.01.2015    source источник


Ответы (1)


Я не совсем уверен, что это отвечает на ваш вопрос, но вы можете указать цепочку обновлений при вызове

 /update?update.chain=yourchain

(источник) или создайте одну цепочку по умолчанию с

<updateRequestProcessorChain name="NERchain" default="true">

(источник)

person Dread Boy    schedule 21.07.2015