文章/答案/技术大牛

发布

问Python网络抓取
EN

Stack Overflow用户

提问于 2015-12-23 07:31:17

回答 1查看 228关注 0票数 0

from lxml import html
import requests

page = requests.get('https://projecteuler.net/problem=1')
tree = html.fromstring(page.content)
text=tree.xpath('//div[@class="problem_content"]/text()')
print (text)

我有这段代码，因此我想得到描述问题的文本，在本例中：

“如果我们列出所有低于10的自然数，它们是3或5的倍数，我们得到3，5，6和9，这些倍数之和是23。找出低于1000的3或5倍数之和。“

但相反，我收到的是：

['\r\n', '\n', '\n']

python

parsing

web-scraping

lxml

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-12-23 07:39:36

发现文本本身包含在<p>插槽中，所以xpath行应该像

text=tree.xpath('//div[@role="problem"]/p/text()')

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/34430738

复制

相似问题

问Python网络抓取
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python网络抓取EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python网络抓取
EN