У меня есть список текстовых данных, из которых я хочу извлечь определенные части. В настоящее время я использую регулярное выражение для извлечения нужных мне данных, но это становится очень сложным, потому что каждая запись немного отличается. Есть ли способ использовать Rapidminer для «выучивания» регулярного выражения на основе некоторых типичных примеров?
Например, для каждой из следующих записей я хочу извлечь текст 24
и 18
в два новых атрибута:
word 24 on line 18
Wrd 24 of Ln 18
Line 18, Word 24
Word 24 comes after word 22 on line 18 (not line 19)
Я просмотрел все видеоролики по обработке текста, но ни в одном из них не показано, как это сделать, и я не знаю, с чего начать. Может ли кто-нибудь предложить способ сделать это, кроме ручного создания регулярных выражений?