问BeautifulSoup网络抓取
EN

Stack Overflow用户

提问于 2016-03-30 20:10:43

回答 1查看 71关注 0票数 1

我正在使用BeautifulSoup来刮一个网站。当它返回链接时，它以/watch/411012/1/test.html的形式出现--我如何使它能够返回http://website.co.uk/watch/411012/1/test.html呢？

from bs4 import BeautifulSoup
import urllib2
import re

resp = urllib2.urlopen("http://website.co.uk") #add more sites
soup = BeautifulSoup(resp, from_encoding=resp.info().getparam('charset'))

for link in soup.find_all('a', href=re.compile('sports')): 
    print link['href']

beautifulsoup

python

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-03-30 20:11:40

使用urlparse.urljoin()

from urlparse import urljoin

base_url = "http://website.co.uk"
for link in soup.find_all('a', href=re.compile('sports')): 
    print urljoin(base_url, link['href'])

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/36318760

复制

相似问题

问BeautifulSoup网络抓取
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问BeautifulSoup网络抓取EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问BeautifulSoup网络抓取
EN