У меня есть следующий проект, в котором мне нужно пометить новости названиями компаний, к которым эти новости относятся (названия компаний упоминаются в новостях и, во многих случаях, в заголовке новости).
Например: у меня есть около 2000 новостей (в формате XML), помеченных названиями компаний и их уровнем релевантности (высокий/низкий) к истории [это было сделано вручную]. Для каждой новости у меня есть следующие поля:
идентификатор_истории, заголовок; рассказ_Текст; название компании; релевантность_уровень(H/L)
причем последние два поля вводятся вручную.
Мне нужно автоматизировать эту процедуру тегирования, т.е. мне нужно пометить входящие новости названиями компаний и их релевантностью с помощью High (H)/Low (L).
Примечание:
некоторые из новостей не имеют отношения к какой-либо компании, поэтому они не помечены.
некоторые из новостей имеют отношение к нескольким компаниям, поэтому они помечены несколькими названиями компаний и их соответствующим уровнем релевантности.
Мне интересно, какие алгоритмы машинного обучения мы можем использовать. Я очень новичок в обработке естественного языка. Поэтому я не могу понять, как решить проблему. Я понимаю, что мне нужно использовать классификацию с несколькими метками/многоклассами, но мне никогда не приходилось использовать классификацию с несколькими метками.
Любая помощь будет принята с благодарностью.
Спасибо.