В некоторых случаях анализ настроений Watson/Alchemy был ошибочно помечен как отрицательный.

Я использую API анализа настроений Watson/Alchemy и нашел несколько статей, которые помечены как отрицательные, тогда как статьи, возможно, положительные. Это происходит, когда в статьях обсуждаются хорошие или выгодные снижения.

Например, эта статья в Washington Post: «В Соединенных Штатах наблюдается резкое снижение уровня насилия с применением огнестрельного оружия. Вот почему». При отправке в API он возвращает оценку -0,4, хотя статья весьма оптимистична! (В статье утверждается, что насилие с применением огнестрельного оружия значительно снизилось.)

Другим примером является эта статья. из CoreLogic, «CoreLogic сообщает о 38 000 завершенных случаях обращения взыскания в январе 2016 года». API возвращает оценку тональности документа, равную -0,27, даже несмотря на то, что текст является положительным: «...запасы взысканий сократились на 21,7 процента, а количество завершенных обращений взыскания сократилось на 16,2 процента по сравнению с январем 2015 года. Количество завершенных обращений взыскания по стране уменьшилось за год. в год с 46 000 в январе 2015 года до 38 000 в январе 2016 года».

Существует ли установленный обходной путь для решения этой проблемы? В частности, мы не хотели бы подрывать доверие к сервису и, таким образом, к нашим результатам, когда внимательный читатель оценивал настроение подобных статей совершенно иначе, чем предлагает API. Я ищу что-то, что позволило бы мне изменить результаты настроений для конкретных случаев (например, «уменьшение потерь права выкупа» является положительным, как и «уменьшение убийств»).


person jdscott    schedule 21.03.2016    source источник


Ответы (1)


Я считаю, что это вполне нормально :-) это очень редкий алгоритм анализа тональности, который может дать вам правильный ответ в 100% результатов :-) Я не знаю о реализации алгоритма, но держу пари, что тональность рассчитывается по «настроению» выражений и слов. Например, «оружие», «насилие», скорее всего, связаны с негативными эмоциями, но Ватсон, возможно, не понял, что они связаны с «массовым спадом» (даже «снижение» может иметь негативное настроение).

Даже самые современные алгоритмы анализа настроений могут достигать точности около 85–90% для очень специфических доменов. Поэтому всегда важно основывать свои ожидания на этом.

person Leo    schedule 21.03.2016
comment
Лео прав. Я бы предложил извлекать фразы из данных и тренировать естественный языковой классификатор, чтобы классифицировать примеры, в которых Алхимия терпит неудачу, в их правильный класс (положительный или отрицательный). Затем вы можете использовать эту модель в качестве второго прохода на выходе алхимии. - person James Ravenscroft; 23.03.2016
comment
Спасибо за ваш вклад, ребята. Я планирую использовать ваш подход, Джеймс, научить NLC помечать тип текста, тональность которого может быть оценена ненадлежащим образом, а затем инвертировать оценки для них вручную. - person jdscott; 25.03.2016