文章/答案/技术大牛

发布

社区首页 >问答首页 >在python中获取URL的明文数据

问在python中获取URL的明文数据
EN

Stack Overflow用户

提问于 2013-07-21 15:03:23

回答 2查看 1.8K关注 0票数 1

我想从给定的URL获取纯文本(例如，没有html标签和实体)。我应该使用什么库来尽可能快地做到这一点？

我试过了(也许有比这更快或更好的方法)：

import re
import mechanize
br = mechanize.Browser()
br.open("myurl.com")
vh = br.viewing_html
//<bound method Browser.viewing_html of <mechanize._mechanize.Browser instance at 0x01E015A8>>

谢谢

plaintext

python

url

fetch

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-07-21 15:29:47

如果站点对您不起作用，您可以使用HTML2Text。您可以访问HTML2Text github Repo获取适用于Python语言的站点

或者试试这个：

import urllib
from bs4 import*

html = urllib.urlopen('myurl.com').read()
soup = BeautifulSoup(html)
text = soup.get_text()
print text

我不知道它是否去掉了所有的js和其他东西，但它去掉了HTML

做一些谷歌搜索，还有许多其他类似的问题

也许你也可以看看Read2Text

票数 1

Stack Overflow用户

发布于 2018-09-19 02:13:41

在Python 3中，您可以获取字节形式的HTML，然后将其转换为字符串表示：

from urllib import request

text = request.urlopen('myurl.com').read().decode('utf8')

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/17769896

复制

相似问题

问在python中获取URL的明文数据
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在python中获取URL的明文数据EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在python中获取URL的明文数据
EN