Я хочу извлечь имена и места из очень коротких текстовых примеров.
"cardinals vs jays in toronto" " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced" "jenson button - pole position, brawn-mercedes - monaco".
Эти данные в настоящее время находятся в базе данных MySQL, и у меня (в значительной степени) есть отдельная запись для каждого спортсмена, хотя имена иногда пишутся неправильно и т. Д.
Хочу выделить спортсменов и локации. Обычно я работаю с PHP, но мне не удалось найти библиотеку для извлечения сущностей (и, возможно, я захочу подробнее изучить некоторые NLP и ML в будущем).
Из того, что я нашел, LingPipe и NLTK кажется наиболее рекомендуемым, но я не могу понять, подойдет ли тот или иной вариант для моих целей, или что-то еще будет лучше.
Я не программировал ни на Java, ни на Python, поэтому, прежде чем начать изучать новые языки, я надеюсь получить совет о том, по какому пути мне следует идти, или другие рекомендации.