使用Requests和BeautifulSoup抓取网页。似乎无法使用select()方法来获取下面HTML中显示的文本。
<head><style type="text/css"></style></head>
<body>
<pre style="word-wrap: break-word; white-space: pre-wrap;">{
"salePrice": 299.99
}</pre>
</body>用"#pre“和".pre”尝试了一下,但没有成功。
page = bs4.BeautifulSoup(res.text)
elems = page.select("pre")有什么想法吗?
谢谢!
*编辑:我不能编辑HTML,因为它是从别人的网页上删除的
发布于 2015-08-01 01:52:29
我可以选择pre标签。
from bs4 import BeautifulSoup
htmldoc = """<head><style type="text/css"></style></head> <body><pre style="word-wrap: break-word; white-space: pre-wrap;">{ "salePrice": 299.99 }</pre></body> <html hola_ext_inject="disabled"><head> <style type="text/css"></style></head> <body> <pre style="word-wrap: break-word; white-space: pre-wrap;">{ "salePrice": 299.99 }</pre> </body> </html>"""
soup = BeautifulSoup(htmldoc, 'html.parser')
print soup.select("pre")[0]以及打印的内容:
<pre style="word-wrap: break-word; white-space: pre-wrap;">{ "salePrice": 299.99 }</pre>https://stackoverflow.com/questions/31751595
复制相似问题