Я хотел бы проанализировать большую папку текстов на наличие имен, адресов и телефонов на нескольких языках.
Им обычно предшествуют слова «Адрес», «Номер телефона», «Имя», «Компания», «Больница», «Доставщик». У меня будет словарь этих слов.
Мне интересно, подойдут ли инструменты для анализа текста идеально для этой работы. Я хотел бы создать корпус для всех этих документов, а затем найти тексты, которые соответствуют конкретным (я думаю о критериях регулярных выражений) справа или снизу от данной словарной статьи.
Есть ли такой синтаксис в пакетах интеллектуального анализа данных в R, т.е. чтобы получить строки справа или снизу от записи списка слов, строки, соответствующие определенному шаблону?
Если нет, то был бы более подходящий инструмент в R для выполнения этой работы?