#!/usr/bin/python
# $Id:$
# strip-html.py Thu Nov 14 07:05:20 2002 Rnd
"""
Простейший конвертор HTML -> TEXT
"""
import urllib, re, string
# рег. выр. для тегов и комментариев
tag_re = re.compile("?[a-z0-9A-Z]+.*?>|", re.M|re.S)
def html2txt(s):
"""Простейший конвертор HTML -> TEXT"""
# убираем теги и комментарии
text_doc = tag_re.sub("", web_doc)
# убираем пустые строки и возвращаем результат
return string.join(
filter(string.strip, string.split(text_doc, "\n")
), "\n")
def test(url):
# чтение документа из сети и печать сконвертированного
print html2txt(urllib.urlopen(url).read())
if __name__ == "__main__":
test("http://www.karelia.ru/bin/select?table=__k__&res=welcome")
# End of strip-html.py