文章/答案/技术大牛

发布

社区首页 >问答首页 >获取标题标记的内容，通过标题标记名进行搜索

问获取标题标记的内容，通过标题标记名进行搜索
EN

Stack Overflow用户

提问于 2015-11-29 23:10:55

回答 2查看 165关注 0票数 0

我正在抓取一个页面，我必须从这种格式中得到员工的数量：

<h5>Number of Employees</h5>
<p>
            20
</p>

我需要得到数字"20“问题是，这个数字并不总是在同一个标题中，有时在"h4”中，还有更多的‘h5’标题，所以我需要找到包含在标题中的数据：“员工数量”，并提取包含在包含段落中的数字

这是页面的链接。

http://www.bbb.org/chicago/business-reviews/paving-contractors/lester-s-material-service-inc-in-grayslake-il-72000434/

beautifulsoup

scrapy

web-scripting

python

xpath

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-11-29 23:37:40

好的，最简单的方法是找到一个包含“员工人数”-text的元素，然后简单地将该段放在后面，假设段落总是紧跟在后面。

下面是一段快速而肮脏的代码，并打印出数字：

parent = soup.find("div", id='business-additional-info-text')
for child in parent.children:
    if("Number of Employees" in child):
        print(child.findNext('p').contents[0].strip())

票数 1

Stack Overflow用户

发布于 2015-11-29 23:40:17

'normalize-space(//*[self::h4 or self::h5][contains(., "Number of Employees")]/following-sibling::p[1]/text())'

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33989262

复制

相似问题

问获取标题标记的内容，通过标题标记名进行搜索
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问获取标题标记的内容，通过标题标记名进行搜索EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问获取标题标记的内容，通过标题标记名进行搜索
EN