Что мне следует использовать для извлечения имен и мест - LingPipe или NLTK?

Я хочу извлечь имена и места из очень коротких текстовых примеров.

 "cardinals vs jays in toronto"
 " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced"
"jenson button - pole position, brawn-mercedes - monaco".

Эти данные в настоящее время находятся в базе данных MySQL, и у меня (в значительной степени) есть отдельная запись для каждого спортсмена, хотя имена иногда пишутся неправильно и т. Д.

Хочу выделить спортсменов и локации. Обычно я работаю с PHP, но мне не удалось найти библиотеку для извлечения сущностей (и, возможно, я захочу подробнее изучить некоторые NLP и ML в будущем).

Из того, что я нашел, LingPipe и NLTK кажется наиболее рекомендуемым, но я не могу понять, подойдет ли тот или иной вариант для моих целей, или что-то еще будет лучше.

Я не программировал ни на Java, ни на Python, поэтому, прежде чем начать изучать новые языки, я надеюсь получить совет о том, по какому пути мне следует идти, или другие рекомендации.


person pedalpete    schedule 31.10.2009    source источник
comment
... отдельная таблица для каждого спортсмена ... может быть, вы имеете в виду запись для каждого спортсмена? (иначе было бы очень много таблиц ...)   -  person mjv    schedule 01.11.2009
comment
Ага! языки / модули были бы наименьшей из моих проблем, если бы у меня была отдельная таблица для каждого спортсмена! Спасибо что подметил это.   -  person pedalpete    schedule 01.11.2009


Ответы (1)


Вы описываете распознавание именованных сущностей. Поэтому я бы рекомендовал проверить другие вопросы по этой теме, если вы их еще не видели. Это мне кажется наиболее полезным ответом.

Я не могу сказать, что лучше всего подходит для этой задачи: NLTK или LingPipe, хотя, глядя на ответы, кажется, что существует довольно много других ресурсов, написанных на Java.

Одним из преимуществ использования NLTK является то, что Python очень доступен как язык. Другое преимущество состоит в том, что книга NLTK (которая доступна бесплатно) предлагает введение как в Python, так и в НЛТК заодно, что было бы полезно для вас.

person nedned    schedule 02.11.2009