Я пытаюсь разделить предложения на слова.
words = content.lower().split()
это дает мне список таких слов, как
'evening,', 'and', 'there', 'was', 'morning--the', 'first', 'day.'
и с этим кодом:
def clean_up_list(word_list):
clean_word_list = []
for word in word_list:
symbols = "~!@#$%^&*()_+`{}|\"?><`-=\][';/.,']"
for i in range(0, len(symbols)):
word = word.replace(symbols[i], "")
if len(word) > 0:
clean_word_list.append(word)
Я получаю что-то вроде:
'evening', 'and', 'there', 'was', 'morningthe', 'first', 'day'
если вы видите слово "morningthe" в списке, значит, между словами стояло "--". Теперь, как я могу разделить их на два слова, например "morning","the"
??
strip()
для удаления ненужных символов на концах строки. т.е.'x-'.strip(',:-')
->'x'
, но'x-y'.strip(',:-')
->'x-y'
. Однако, если вы хотите работать с реальными текстами, вам нужен более сложный подход... Может быть, NTLK будет хорошим началом? - person myaut   schedule 28.01.2017nltk.word_tokenize(content)
илиre.findall(r'\w+',content)
. - person DYZ   schedule 28.01.2017