文章/答案/技术大牛

发布

社区首页 >问答首页 >Python urllib2.urlopen()很慢，需要一种更好的方法来读取几个urls

问Python urllib2.urlopen()很慢，需要一种更好的方法来读取几个urls
EN

Stack Overflow用户

提问于 2010-08-12 22:26:18

回答 8查看 33.5K关注 0票数 15

正如标题所示，我正在开发一个用python编写的站点，它会多次调用urllib2模块来读取网站。然后我用BeautifulSoup解析它们。

由于我必须阅读5-10个网站，页面需要一段时间来加载。

我只是想知道有没有办法同时阅读这些网站？或者任何让它更快的技巧，比如我应该在每次阅读之后关闭urllib2.urlopen，还是保持打开？

添加了：另外，如果我切换到php，那么从其他站点获取和Parsi g HTML和XML文件会更快吗？我只想让它加载得更快，而不是目前需要的20秒。

http

concurrency

urllib2

python

回答 8

Stack Overflow用户

回答已采纳

发布于 2010-08-12 23:49:16

下面我正在使用threading和Queue这样的现代Python模块重写Dumb的代码。

import threading, urllib2
import Queue

urls_to_load = [
'http://stackoverflow.com/',
'http://slashdot.org/',
'http://www.archive.org/',
'http://www.yahoo.co.jp/',
]

def read_url(url, queue):
    data = urllib2.urlopen(url).read()
    print('Fetched %s from %s' % (len(data), url))
    queue.put(data)

def fetch_parallel():
    result = Queue.Queue()
    threads = [threading.Thread(target=read_url, args = (url,result)) for url in urls_to_load]
    for t in threads:
        t.start()
    for t in threads:
        t.join()
    return result

def fetch_sequencial():
    result = Queue.Queue()
    for url in urls_to_load:
        read_url(url,result)
    return result

find_sequencial()的最佳时间是2s。fetch_parallel()的最佳时间为0.9s。

而且，说thread在Python中是无用的是不正确的，因为GIL的存在。这是在Python中线程很有用的情况之一，因为线程在I/O上被阻塞了，正如您在我的结果中看到的那样，并行情况要快2倍。

票数 18

Stack Overflow用户

发布于 2010-08-12 22:30:36

编辑：请查看Wai的帖子，以获得更好的代码版本。请注意，这段代码没有什么问题，尽管下面有注释，但将正确地运行。

阅读网页的速度可能受到互联网连接的限制，而不是Python。

您可以使用线程一次加载它们。

import thread, time, urllib
websites = {}
def read_url(url):
  websites[url] = urllib.open(url).read()

for url in urls_to_load: thread.start_new_thread(read_url, (url,))
while websites.keys() != urls_to_load: time.sleep(0.1)

# Now websites will contain the contents of all the web pages in urls_to_load

票数 9

Stack Overflow用户

发布于 2013-03-09 17:19:48

它不完美。但当我需要网站的数据时。我就是这么做的：

import socket
def geturldata(url):
    #NO HTTP URLS PLEASE!!!!! 
    server = url.split("/")[0]
    args = url.replace(server,"")
    returndata = str()
    s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    s.connect((server, 80)) #lets connect :p

    s.send("GET /%s HTTP/1.0\r\nHost: %s\r\n\r\n" % (args, server)) #simple http request
    while 1:
        data = s.recv(1024) #buffer
        if not data: break
        returndata = returndata + data
    s.close()
    return returndata.split("\n\r")[1]

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/3472515

复制

相似问题

问Python urllib2.urlopen()很慢，需要一种更好的方法来读取几个urls
EN

回答 8

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python urllib2.urlopen()很慢，需要一种更好的方法来读取几个urlsEN

回答 8

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python urllib2.urlopen()很慢，需要一种更好的方法来读取几个urls
EN