У меня есть пакет необработанных текстовых файлов. Каждый файл начинается с Date>>month.day year News garbage
.
garbage
— это много текста, который мне не нужен, и длина его может быть разной. Слова Date>>
и News
всегда появляются в одном и том же месте и не меняются.
Я хочу скопировать месяц день год и вставить эти данные в файл CSV с новой строкой для каждого файла в формате день месяц год.
Как скопировать месяц, день, год в отдельные переменные?
Я попытался разбить строку после известного слова и перед известным словом. Я знаком со строкой [x: y], но в основном я хочу изменить x и y из чисел в настоящие слова (например, строку [Date>>: News])
import re, os, sys, fnmatch, csv
folder = raw_input('Drag and drop the folder > ')
for filename in os.listdir(folder):
# First, avoid system files
if filename.startswith("."):
pass
else:
# Tell the script the file is in this directory and can be written
file = open(folder+'/'+filename, "r+")
filecontents = file.read()
thestring = str(filecontents)
print thestring[9:20]
Пример текстового файла:
Date>>January 2. 2012 News 122
5 different news agencies have reported the story of a man washing his dog.