Я пытаюсь определить шаблон в нескольких строках, а точнее в двух строках. Поскольку узор в любой отдельной строке не уникален, я использую этот подход.
До сих пор я пытался использовать функцию "grep", но я думаю, что здесь отсутствует правильное регулярное выражение.
grep("^Item\\s{0,}2[^A]", f.text, ignore.case = TRUE)
Эта часть представляет собой модифицированную версию функции "getfillings" пакета edgar и пытается извлечь только Комментарий/Элемент 2 Руководства для квартальных результатов. Если возможно, я бы включил что-то после ... 2[^A]
в функцию, которая реагирует на новую строку, а затем строку "Управление..."
Шаблон в простых текстах, которые у меня есть, выглядит так:
Пункт 2.
Обсуждение руководством и анализ финансового состояния и результатов деятельности
Я был бы признателен за любые комментарии о том, как лучше всего зафиксировать это в регулярном выражении с помощью R.
Пример ввода выглядит следующим образом:
21 Пункт 2.
Обсуждение руководством и анализ финансового положения и результатов деятельности Этот раздел и другие части настоящего Ежеквартального отчета по форме 10 Пункт 3.
Раскрытие количественной и качественной информации о рыночном риске существенные изменения рыночного риска Компании
и желаемый результат будет
Обсуждение руководством и анализ финансового положения и результатов деятельности Этот раздел и другие части настоящего Ежеквартального отчета по форме 10
Мне нужно сопоставить «Пункт 2. ... Обсуждение руководства», поскольку пункт 2 не уникален. Как я могу сформулировать регулярное выражение в две строки?
\\n
дает вам разрыв строки. Возможно, это решит вашу проблему? - person Martin Gal   schedule 25.05.2020