Рассмотрим вектор символов в R. Как вы догадались, это выписка из выписки по кредитной карте (сохраненная в переменной x).
[1] "Statement includes payments and charges received by April 20, 2017 May 11, 2017"
[2] "Statement Period From March 21 to April 20, 2017"
[3] "At April 20, 2017 250,000.00 175,836.16"
[4] "April 07 PAYMENT RECEIVED."
[5] "April 07 PAYMENT RECEIVED.THANK YOU 20,000.00"
[6] "March 20 GOOGLE *TRUECALLER G.CO/PAYHELP# 29.00"
[7] "April 20 SERVICE TAX (INCL SBC & KKC) 488.51"
[8] "April 20 FINANCE CHARGES 3,256.70"
Нам нужно преобразовать этот массив символов в матрицу с 3 переменными, используя str_match, чтобы первый столбец был датой, например. April 07
или March 20
Второй столбец должен содержать весь текст, начиная с конца «даты» до начала числа в конце. Все строки без числа в конце можно игнорировать.
В третьем столбце должно быть число с запятой и десятичной точкой.
Я много искал, но решения просто пропускают все начальные числа и соответствуют только последним 1 или двум цифрам.
я пытался
str_match_all(x,"(April [0-9]{2})(.+)([\\d,\\.]+)$")
Это соответствует первому столбцу, но второй столбец также содержит первые несколько цифр третьего столбца (число) в конце, а третий столбец содержит только последнюю цифру :-(
Я совершаю фундаментальную ошибку, и если она будет решена, моя выписка по кредитной карте может быть легко сохранена в матрице.
Любая помощь будет оценена.