Я делаю приложение, используя анализатор дерева зависимостей. На самом деле парсер такой: парсер Stanford, но он редко меняет один или две буквы некоторых слов в предложении, которое я хочу разобрать. Для меня это большая беда, потому что я не вижу никакой закономерности в этих изменениях и мне нужно дерево зависимостей с теми же словами моего предложения.
Все, что я вижу, это то, что только некоторые слова имеют эти проблемы. Я работаю с базой данных твитов. Итак, у меня много грамматических ошибок в этих данных. Например, хэштег #AllAmericanhumour становится AllAmericanhumor. Не хватает одной буквы (у).
Могу ли я что-нибудь сделать, чтобы решить эту проблему? В моем первом представлении я думал об использовании алгоритма расстояния редактирования, но я думаю, что это может быть более простой способ сделать это.
Спасибо всем заранее