我正在抓取一个包含同一类的两个“钩子”的html文档,如下所示:
<div class="multiRow">
<!--ModuleId 372329FileName @swMultiRowsContainer-->
<some more content>
</div>
<div class="multiRow">
<!--ModuleId 372330FileName @multiRowsContainer-->
<some more content>
</div>当我这样做的时候:
mr = ct[0].find_all('div', {'class': 'multiRow'})我只能从第一个获取内容,有没有办法访问第二个中的内容?
谢谢!
发布于 2014-03-25 04:58:25
使用Adam Smith的评论进行编辑。
参考我上面的评论,代码如下:
from bs4 import BeautifulSoup as soup
a = "<div class=\"multiRow\"><!--ModuleId 372329FileName @swMultiRowsContainer-->Bye</div> <div class=\"multiRow\"><!--ModuleId 372330FileName @multiRowsContainer-->Hi</div>"
print soup(a).find_all("div",{"class":"multiRow"})[1]返回:
<div class="multiRow"><!--ModuleId 372330FileName @multiRowsContainer-->Hi</div>发布于 2018-10-19 18:36:07
Adam Smith的注释的编码示例。我认为这是非常清楚的。
ct= soup.findAll("div", {"class" : "multiRow"})
ct= ct[1]
print(ct)发布于 2021-01-23 14:00:50
因为您只请求第一个内容,所以请检查您的代码
ct[0].find_allct[0]将只抓取第一个内容,而不是整个内容。解决这个问题。
https://stackoverflow.com/questions/22620347
复制相似问题