удалить множественное число при использовании тега Stanford pos

Я пытаюсь заменить множественное число на единственное (например, от девочек к девушке), используя Стэнфордский теггер.

private static final String vbnTag = "VBN";
private static final String vbdTag = "VBD";
private static final String jjTag = "JJ";
private static final String edSuff = "ed";
private static final String enSuff = "en";
private static final String oneSt = "1";
private static final String naWord = "NA";

private static final Pattern stopper = Pattern.compile("(?i:and|or|but|,|;|-|--)");
private static final Pattern vbnWord = Pattern.compile("(?i:have|has|having|had|is|am|are|was|were|be|being|been|'ve|'s|s|'d|'re|'m|gotten|got|gets|get|getting)"); // cf. list in EnglishPTBTreebankCorrector

Я делаю правильно?


person shuvo_hi    schedule 05.08.2013    source источник


Ответы (1)


Я думаю, вы можете сделать это с помощью аннотации лемматизации, представленной в Stanford core NLP.

person Raju Penumatsa    schedule 14.08.2013
comment
Спасибо RajuPenumatsa, я собираюсь попробовать - person shuvo_hi; 20.08.2013