Я сделал резервную копию своего блога в формате Google XML. Это довольно долго. До сих пор я сделал это:
>>> import feedparser
>>> blogxml = feedparser.parse('blog.xml')
>>> type(blogxml)
<class 'feedparser.FeedParserDict'>
В книге, которую я читаю, автор делает это:
>>> import feedparser
>>> llog = feedparser.parse("http://languagelog.ldc.upenn.edu/nll/?feed=atom")
>>> llog['feed']['title'] u'Language Log'
>>> len(llog.entries) 15
>>> post = llog.entries[2]
>>> post.title u"He's My BF"
>>> content = post.content[0].value
>>> content[:70] u'<p>Today I was chatting with three of our visiting graduate students f'
>>> nltk.word_tokenize(nltk.html_clean(content))
И это работает для меня на основе записи за записью. Как видите, у меня уже есть способ очистки HTML с помощью NLTK. Но что я действительно хочу, так это взять все записи, очистить их от HTML (что я уже знаю, как это сделать, и не спрашиваю, как это сделать, пожалуйста, прочитайте вопрос немного внимательнее) и записать их в файл как строка открытого текста. Что больше связано с правильным использованием feedparser. Есть ли простой способ сделать это?
Обновлять:
Как оказалось, я все еще не приблизился к тому, чтобы найти простой способ сделать это. Из-за моей некомпетентности в python я был вынужден сделать что-то немного уродливое.
Вот что я думал сделать:
import feedparser
import nltk
blog = feedparser.parse('myblog.xml')
with open('myblog','w') as outfile:
for itemnumber in range(0, len(blog.entries)):
conts = blog.entries[itemnumber].content
cleanconts = nltk.word_tokenize(nltk.html_clean(conts))
outfile.write(cleanconts)
Итак, большое спасибо, @Rob Cowie, но ваша версия (которая выглядит великолепно) не сработала. Мне жаль, что я не указал на это раньше и принял ответ, но у меня не так много времени для работы над этим проектом. Материал, который я разместил ниже, - это все, что я мог приступить к работе, но я оставляю этот вопрос открытым на случай, если у кого-то есть что-то более элегантное.
import feedparser
import sys
blog = feedparser.parse('myblog.xml')
sys.stdout = open('blog','w')
for itemnumber in range(0, len(blog.entries)):
print blog.entries[itemnumber].content
sys.stdout.close()
затем я CTRL-D вышел из интерпретатора, потому что я понятия не имел, как закрыть открытый файл, не закрывая стандартный вывод Python. Потом снова зашел в интерпретатор, открыл файл, прочитал файл и почистил оттуда HTML. (кстати, nltk.html_clean — это опечатка в онлайн-версии самой книги NLTK... на самом деле это nltk.clean_html). То, что я закончил, было почти, но не совсем открытым текстом.