Я пытаюсь разбирать предложения из огромного количества текста. Используя java, я начал с таких инструментов NLP, как OpenNLP и Stanford's Parser.
Но здесь я застреваю. хотя оба этих парсера довольно хороши, они терпят неудачу, когда дело доходит до неоднородного текста.
Например, в моем тексте большинство предложений разделено точкой, но в некоторых случаях, например, в маркерах, это не так. Здесь оба анализа с треском провалились.
Я даже попытался установить опцию в stanford parses для нескольких терминаторов предложений, но результат был не намного лучше!
Любые идеи??
Изменить. Чтобы упростить задачу, я хочу проанализировать текст, в котором разделителем является либо новая строка ("\ n"), либо точка (".") ...