我想从给定的URL获取纯文本(例如,没有html标签和实体)。我应该使用什么库来尽可能快地做到这一点?
我试过了(也许有比这更快或更好的方法):
import re
import mechanize
br = mechanize.Browser()
br.open("myurl.com")
vh = br.viewing_html
//<bound method Browser.viewing_html of <mechanize._mechanize.Browser instance at 0x01E015A8>>谢谢
发布于 2013-07-21 15:29:47
如果站点对您不起作用,您可以使用HTML2Text。您可以访问HTML2Text github Repo获取适用于Python语言的站点
或者试试这个:
import urllib
from bs4 import*
html = urllib.urlopen('myurl.com').read()
soup = BeautifulSoup(html)
text = soup.get_text()
print text我不知道它是否去掉了所有的js和其他东西,但它去掉了HTML
做一些谷歌搜索,还有许多其他类似的问题
也许你也可以看看Read2Text
发布于 2018-09-19 02:13:41
在Python 3中,您可以获取字节形式的HTML,然后将其转换为字符串表示:
from urllib import request
text = request.urlopen('myurl.com').read().decode('utf8') https://stackoverflow.com/questions/17769896
复制相似问题