我有一个html代码,代码如下:
<div class="_cFb">
<div class="_XWk">Rabindranath Tagore</div>
</div>我使用了以下python代码来提取文本内容:
soup.find_all('div', attrs={'class':'._XWk'})此代码返回空。但是,我可以访问其他不以下划线(_)开头的类属性。对提取标签文本有什么想法吗?
发布于 2017-03-14 03:10:12
这是可行的:
>>> import bs4
>>> soup = bs4.BeautifulSoup('''<div class="_cFb">
... <div class="_XWk">Rabindranath Tagore</div>
... </div>''', 'html.parser')
>>> soup.find_all('div', class_='_XWk')
[<div class="_XWk">Rabindranath Tagore</div>]在这里找到了按类搜索的方法:https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-by-css-class
顺便说一下,lxml框架也可以用于解析HTML,它允许使用CSS选择器进行搜索。
发布于 2017-03-14 08:44:29
In [87]: soup.find_all('div', attrs={'class':'_XWk'})删除._XWk中的.
https://stackoverflow.com/questions/42770615
复制相似问题