Я хочу создать новый столбец для текстовых данных (каждая строка для этого столбца представляет собой одно описание) после удаления всех чисел (например, 189, 98001), специальных символов (', _, ", (,)) и букв с числа или специальные символы (e21x16, e267, e4, e88889, entry778, id2, n27th, pv3, ).
Поэтому я написал функцию ниже. Однако возвращаемые результаты по-прежнему содержат числа и специальные символы. По сути, моя цель — оставить только английские слова и аббревиатуры. Кто-нибудь знает, почему моя функция не работает.
def standardize_text(df, text_field):
df[text_field] = df[text_field].str.lower()
df[text_field] = df[text_field].str.replace(r'(', '')
df[text_field] = df[text_field].str.replace(r')', '')
df[text_field] = df[text_field].str.replace(r',', '')
df[text_field] = df[text_field].str.replace(r'_', '')
df[text_field] = df[text_field].str.replace(r"'", "")
df[text_field] = df[text_field].str.replace(r"^[a-z]+\[0-9]+$", "")
df[text_field] = df[text_field].str.replace(r"^[0-9]{1,2,3,4,5}$", "")
return df
'\'
вr"^[a-z]+\[0-9]+$"
? - person DYZ   schedule 19.03.2018df
и его членов. - person lucastamoios   schedule 19.03.2018