Есть ли способ извлечь
Альберт Эйнштейн ( / ælbərt ˈaɪnstaɪn / ; немецкий : albɐt ˈaɪnʃtaɪn ; 14 марта 1879 г. - 18 апреля 1955 г.) был физиком-теоретиком немецкого происхождения, который разработал общую теорию относительности, произведя революцию в физике. .......... с более чем 150 ненаучными работами. [6][8] Его большой интеллект и оригинальность сделали слово «Эйнштейн» синонимом гениальности. [9]
(Весь вывод основного абзаца, видимый при запуске кода)
Автоматически из вывода следующего кода? Даже если он выведен с другой страницы википедии:
import urllib2
import re, sys
from HTMLParser import HTMLParser
class MLStripper(HTMLParser):
def __init__(self):
self.reset()
self.fed = []
def handle_data(self, d):
self.fed.append(d)
def get_data(self):
return ''.join(self.fed)
def stripHTMLTags(html):
html = re.sub(r'<{1}br{1}>', '\n', html)
s = MLStripper()
s.feed(html)
text = s.get_data()
if "External links" in text:
text, sep, tail = text.partition('External links')
if "External Links" in text:
text, sep, tail = text.partition('External Links')
text = text = text.replace("See also","\n\n See Also - \n")
text = text.replace("*","- ")
text = text.replace(".", ". ")
text = text.replace(" "," ")
text = text.replace(""" /
/ ""","")
return text
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
infile = opener.open('http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes')
page = infile.read()
print stripHTMLTags(page)
Пожалуйста, извините мое плохое форматирование, код (и, возможно, отступы), я сейчас использую 3-дюймовый дисплей и не имел возможности просмотреть свой собственный код: P.
Спасибо также людям, чьи сообщения помогли мне заставить это работать :)