首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Beautifulsoup FindAll by class

Beautifulsoup FindAll by class
EN

Stack Overflow用户
提问于 2017-03-14 02:13:00
回答 2查看 7K关注 0票数 1

我有一个html代码,代码如下:

代码语言:javascript
复制
<div class="_cFb">  
<div class="_XWk">Rabindranath Tagore</div>
</div>

我使用了以下python代码来提取文本内容:

代码语言:javascript
复制
soup.find_all('div', attrs={'class':'._XWk'})

此代码返回空。但是,我可以访问其他不以下划线(_)开头的类属性。对提取标签文本有什么想法吗?

EN

回答 2

Stack Overflow用户

发布于 2017-03-14 03:10:12

这是可行的:

代码语言:javascript
复制
>>> import bs4
>>> soup = bs4.BeautifulSoup('''<div class="_cFb">  
... <div class="_XWk">Rabindranath Tagore</div>
... </div>''', 'html.parser')
>>> soup.find_all('div', class_='_XWk')
[<div class="_XWk">Rabindranath Tagore</div>]

在这里找到了按类搜索的方法:https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-by-css-class

顺便说一下,lxml框架也可以用于解析HTML,它允许使用CSS选择器进行搜索。

票数 5
EN

Stack Overflow用户

发布于 2017-03-14 08:44:29

代码语言:javascript
复制
In [87]: soup.find_all('div', attrs={'class':'_XWk'})

删除._XWk中的.

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42770615

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档