Я пытаюсь последовательно извлечь текст из соответствующего тега в предложении. В основном я пытаюсь получить часть речи, соответствующую каждому предложению в текстовом файле. Код:
posText<- "The VeriFone is not working, when customers slide card nothing happens. The screen is frozen. We rebooted but it did not help."
posText1<- c("The VeriFone is not working","scanner is not scanning","printer offline","when customers slide card nothing happens. The screen is frozen. We rebooted but it did not help.")
tagPOS <- function(x, ...) {
s <- as.String(x)
word_token_annotator <- Maxent_Word_Token_Annotator()
a2 <- Annotation(1L, "sentence", 1L, nchar(s))
a2 <- annotate(s, word_token_annotator, a2)
a3 <- annotate(s, Maxent_POS_Tag_Annotator(), a2)
a3w <- a3[a3$type == "word"]
POStags <- unlist(lapply(a3w$features, `[[`, "POS"))
POStagged <- paste(sprintf("%s/%s", s[a3w], POStags), collapse = " ")
list(POStagged = POStagged, POStags = POStags)
}
dd1 <- do.call(rbind, strsplit(as.character(posText), ' '))
dd_V1 <- tagPOS(dd1)$POStagged
dd_V1
Вывод
[1] "The/DT VeriFone/NNP is/VBZ not/RB working/VBG ,/, when/WRB customers/NNS slide/NN card/NN nothing/NN happens/VBZ ./. The/DT screen/NN is/VBZ frozen/VBN ./. We/PRP rebooted/VBD but/CC it/PRP did/VBD not/RB help/VB ./."
Я хочу извлечь текст тега в последовательности. Например: я хочу извлечь тексты с тегом «NNP», «VBZ», «RB», «VBG» последовательно из всего текстового файла, где бы мы ни имели следующую последовательность в предложениях.
Мои желаемые результаты:
[1] VeriFone is not working
Спасибо за помощь.
as.String
иMaxent_Word_Token_Annotator()
не находятся в базе R. Возможно, вы также могли бы отредактировать вопрос, чтобыposText
был вектором, и каков результат, соответствующий желаемому результату в этом случае. - person Daniel Fischer   schedule 18.11.2016