首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >筛选变量,使其仅包含指定的字符串python

筛选变量,使其仅包含指定的字符串python
EN

Stack Overflow用户
提问于 2013-06-18 07:16:41
回答 2查看 1K关注 0票数 0

我正在尝试用python制作链接爬虫;我知道收割者,但那不是我要找的。这是我到目前为止所知道的:

代码语言:javascript
复制
import httplib, sys

target=sys.argv[1]
subsite=sys.argv[2]
link = "http://"+target+subsite

def spider():
    while 1:
        conn = httplib.HTTPConnection(target)
        conn.request("GET", subsite)
        r2 = conn.getresponse()
        data = r2.read().split('\n')
        for x in data[:]:
            if link in x:
                print x
spider()

但是我似乎找不到过滤x的方法,所以我可以检索链接。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-06-18 07:20:16

我想会行得通

代码语言:javascript
复制
import re
re.findall("href=([^ >]+)",x)
票数 1
EN

Stack Overflow用户

发布于 2013-06-18 07:30:52

如果你正在走这条路,那么你可以从安装requestsbs4开始,让生活变得更容易-并开始你自己的基于以下内容的爬虫模板:

代码语言:javascript
复制
import requests
from bs4 import BeautifulSoup

page = requests.get('http://www.google.com')
soup = BeautifulSoup(page.text)
# Find all anchor tags that have an href attribute
print [a['href'] for a in soup.find_all('a', {'href': True})]
# ['http://www.google.co.uk/imghp?hl=en&tab=wi', 'http://maps.google.co.uk/maps?hl=en&tab=wl', 'https://play.google.com/?hl=en&tab=w8', 'http://www.youtube.com/?gl=GB&tab=w1', 'http://news.google.co.uk/nwshp?hl=en&tab=wn', 'https://mail.google.com/mail/?tab=wm', 'https://drive.google.com/?tab=wo', 'http://www.google.co.uk/intl/en/options/', 'http://www.google.co.uk/history/optout?hl=en', '/preferences?hl=en', 'https://accounts.google.com/ServiceLogin?hl=en&continue=http://www.google.co.uk/', '/advanced_search?hl=en-GB&authuser=0', '/language_tools?hl=en-GB&authuser=0', 'https://www.google.com/intl/en_uk/chrome/browser/promo/cubeslam/', '/intl/en/ads/', '/services/', 'https://plus.google.com/103583604759580854844', '/intl/en/about.html', 'http://www.google.co.uk/setprefdomain?prefdom=US&sig=0_cYDPGyR7QbF1UxGCXNpHcrj09h4%3D', '/intl/en/policies/']
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/17158378

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档