首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在python中获取URL的明文数据

在python中获取URL的明文数据
EN

Stack Overflow用户
提问于 2013-07-21 15:03:23
回答 2查看 1.8K关注 0票数 1

我想从给定的URL获取纯文本(例如,没有html标签和实体)。我应该使用什么库来尽可能快地做到这一点?

我试过了(也许有比这更快或更好的方法):

代码语言:javascript
复制
import re
import mechanize
br = mechanize.Browser()
br.open("myurl.com")
vh = br.viewing_html
//<bound method Browser.viewing_html of <mechanize._mechanize.Browser instance at 0x01E015A8>>

谢谢

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-07-21 15:29:47

如果站点对您不起作用,您可以使用HTML2Text。您可以访问HTML2Text github Repo获取适用于Python语言的站点

或者试试这个:

代码语言:javascript
复制
import urllib
from bs4 import*

html = urllib.urlopen('myurl.com').read()
soup = BeautifulSoup(html)
text = soup.get_text()
print text

我不知道它是否去掉了所有的js和其他东西,但它去掉了HTML

做一些谷歌搜索,还有许多其他类似的问题

也许你也可以看看Read2Text

票数 1
EN

Stack Overflow用户

发布于 2018-09-19 02:13:41

在Python 3中,您可以获取字节形式的HTML,然后将其转换为字符串表示:

代码语言:javascript
复制
from urllib import request

text = request.urlopen('myurl.com').read().decode('utf8') 
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/17769896

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档