我有以下结果:
<div id="resultlist" class="result-list ">
<article itemscope="" itemtype="http://schema.org/Residence" class="search-result-entry ">
<article itemscope="" itemtype="http://schema.org/Residence" class="search-result-entry ">
<article class="search-result-entry" id="wh_adition_FakeAd1">
<article itemscope="" itemtype="http://schema.org/Residence" class="search-result-entry ">
...使用漂亮汤,我尝试使用“搜索结果条目”和itemtype="http://schema.org/Residence"“类选择所有条目。
response = requests.get(url)
#cancel parsing if page doesnt exists
if response.status_code is not 200:
return
soup = bs4.BeautifulSoup(response.text, "lxml")
#print(soup.select("resultlist")
#select all listings from lise, execlude adds
results = soup.select('.search-result-entry')
print(results)但是,目前我也在选择那些带有id="wh_adition_FakeAd1"的,这给了我一个索引错误,一些行以后。我试过了,但没有结果:
results = soup.select('.search-result-entry meta[itemtype=http://schema.org/Residence]')知道我怎样才能选择我需要的条目吗?
发布于 2017-06-13 15:10:56
你可以试试这个。查找所有具有您想要的项目类型的文章标记。这将只打印带有该属性的那些。
for line in soup.findAll("article", {"itemtype" : "http://schema.org/Residence"}):
print line你也可以对那些有ID的
for line in soup.findAll("article", {"id" : "wh_adition_FakeAd1"}):
print line希望这能有所帮助。
https://stackoverflow.com/questions/44524876
复制相似问题