NLTK - извлечение информации о местоположении и определение страны-владельца

в настоящее время у меня есть сценарий, в котором я хочу извлечь информацию о местоположении в заданном тексте и в конечном итоге получить страну, к которой принадлежит местоположение.

Например:

I am studying in New York.

Я хочу захватить Нью-Йорк в качестве локации и каким-то образом найти страну-владельца.

Теперь я использую NLTK с пакетом Stanford NER. Я могу успешно извлечь местоположение. И затем, как я могу получить свою страну (используя корпус или что-то в этом роде)? Я считаю, что могу получить его с помощью геосервиса. Но лучше обойтись без веб-сервиса или фиксированной таблицы местоположений.

Любая идея приветствуется! Спасибо.


person Garry    schedule 26.10.2017    source источник


Ответы (1)


  1. Вы можете обучить свою модель NER для географических данных, чтобы идентифицировать столько информации, сколько хотите. Но у него будут свои ограничения, такие как варианты написания, псевдонимы мест и т. д. Это легко выполнимо с помощью NLTK.

  2. Существует проект github на основе NLTK, который специализируется на географических данных NER: /a> Он также поддерживает нечеткие совпадения строк и такие вещи, как поиск страны.

  3. Для поиска страны вы можете либо полагаться на проект, упомянутый в № 2, либо для более широкого охвата использовать API Google Places. для поиска извлеченного объекта и выбора наиболее вероятного результата из предложенных. Страна будет присутствовать в административной иерархии, предоставленной результатами API Google. Например: Сан-Франциско --> Калифорния --> США.

person DhruvPathak    schedule 26.10.2017