首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >获取标题标记的内容,通过标题标记名进行搜索

获取标题标记的内容,通过标题标记名进行搜索
EN

Stack Overflow用户
提问于 2015-11-29 23:10:55
回答 2查看 165关注 0票数 0

我正在抓取一个页面,我必须从这种格式中得到员工的数量:

代码语言:javascript
复制
<h5>Number of Employees</h5>
<p>
            20
</p>

我需要得到数字"20“问题是,这个数字并不总是在同一个标题中,有时在"h4”中,还有更多的‘h5’标题,所以我需要找到包含在标题中的数据:“员工数量”,并提取包含在包含段落中的数字

这是页面的链接。

http://www.bbb.org/chicago/business-reviews/paving-contractors/lester-s-material-service-inc-in-grayslake-il-72000434/

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-11-29 23:37:40

好的,最简单的方法是找到一个包含“员工人数”-text的元素,然后简单地将该段放在后面,假设段落总是紧跟在后面。

下面是一段快速而肮脏的代码,并打印出数字:

代码语言:javascript
复制
parent = soup.find("div", id='business-additional-info-text')
for child in parent.children:
    if("Number of Employees" in child):
        print(child.findNext('p').contents[0].strip())
票数 1
EN

Stack Overflow用户

发布于 2015-11-29 23:40:17

代码语言:javascript
复制
'normalize-space(//*[self::h4 or self::h5][contains(., "Number of Employees")]/following-sibling::p[1]/text())'
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33989262

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档