文章/答案/技术大牛

发布

社区首页 >问答首页 >Python爬虫的BeautifulSoup提取

问Python爬虫的BeautifulSoup提取
EN

Stack Overflow用户

提问于 2017-01-24 09:28:41

回答 1查看 173关注 0票数 0

我正试着从图片中提取标题。我已经成功地提取了url，但不确定如何对图像标题的提取进行编码。

代码：

import requests 
from bs4 import BeautifulSoup 

def trade_spider(max_pages): 
    page = 1
    while page <= max_pages:
        url = 'http://www.gurstree.com.au/s—cars—vans—utes/melbourne/page—' + str(page) + '/c1832013001317'
        source_code = requests.get(url)
        plain_text = source_code.text
        soup = BeautifulSoup(plain_text)
        for link in soup.findAll('a', {'class': 'ad—listing_title—link'}):
            href = 'http://www.gumtree.com.au/' + link.get('href')
            print(href)
        page += 1 

trade_spider(1)

HTML是：

<a itemprop="url" class="ad-listing__thumb-link" name="1124692138" href="/s-ad/derrimut/cars-vans-utes/2015-toyota-86-coupe-12-month-warranty-/1124692138" data-ref="searchTopAd">
  <span id="r-image-TOP_AD-1124692138" title="2015 Toyota 86 Coupe **12 MONTH WARRANTY** Derrimut Brimbank Area Preview" class="j-responsive-image ad-listing__thumb" data-index="1">...</span>
</a>

第一行是href，但是我想按照title突出显示的span块获得span。

谢谢!

python

html

beautifulsoup

web-crawler

回答 1

Stack Overflow用户

发布于 2017-01-24 09:36:35

link.span.get('title')

使用.查找下一个span并获取title

使用regex匹配加载项中的字符串：

import re    
soup.find('span', id=re.compile(r'r-image'))

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/41824514

复制

相似问题

问Python爬虫的BeautifulSoup提取
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python爬虫的BeautifulSoup提取EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python爬虫的BeautifulSoup提取
EN