首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何用BS4捕获异常跨度标签中的数据?

如何用BS4捕获异常跨度标签中的数据?
EN

Stack Overflow用户
提问于 2019-04-07 05:16:16
回答 2查看 228关注 0票数 0

我正在为工作而抓取一个网站,我不能得到美丽的汤来抓取不寻常的标签之间的某些文本。

我简单地搜索了一个span标记,它显示在结果中,但是我不能很快使用re.compile获得要显示的特定单词。

这是html的一个片段。

代码语言:javascript
复制
ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Result " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"><span class="test-case-result status-2">Passed</span></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Approval " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"><span class="test-case-approval-status status-1">Pending</span></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Time Left " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" 

这是用来抓取所有span标签的代码

代码语言:javascript
复制
soup.find_all('span')

但是当我使用像这样的东西时

代码语言:javascript
复制
soup.find_all('span', {re.compile('Passed|Failed')}):

它似乎没有给出结果

我也试过了

代码语言:javascript
复制
soup.find_all('span', {'test-case-result status-2': re.compile('Passed|Failed')})

Expected将抓取所有通过和失败的实例

Actual -除纯粹使用span are之外的所有抓取尝试都显示为空。

我确信这很简单,我遗漏了一些东西,但我真的在努力进一步了解文档。谢谢你的帮助。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-04-07 06:00:33

find_all()中使用text=

代码语言:javascript
复制
soup.find_all('span', text=re.compile('Passed|Failed'))

如果没有text=,它可能会使用regex来搜索标记名。

票数 1
EN

Stack Overflow用户

发布于 2019-04-07 13:00:12

使用bs 4.7.1时,我会避免使用正则表达式,而使用:contains伪类

代码语言:javascript
复制
from bs4 import BeautifulSoup
html = '''
  ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Result " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"><span class="test-case-result status-2">Passed</span></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Approval " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"><span class="test-case-approval-status status-1">Pending</span></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Time Left " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}"
  '''
soup = BeautifulSoup(html, 'lxml')

spans =  soup.select('span:contains(Passed),span:contains(Failed)')
print(spans)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55553546

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档