正如标题所示,我正在开发一个用python编写的站点,它会多次调用urllib2模块来读取网站。然后我用BeautifulSoup解析它们。
由于我必须阅读5-10个网站,页面需要一段时间来加载。
我只是想知道有没有办法同时阅读这些网站?或者任何让它更快的技巧,比如我应该在每次阅读之后关闭urllib2.urlopen,还是保持打开?
添加了:另外,如果我切换到php,那么从其他站点获取和Parsi g HTML和XML文件会更快吗?我只想让它加载得更快,而不是目前需要的20秒。
发布于 2010-08-12 23:49:16
下面我正在使用threading和Queue这样的现代Python模块重写Dumb的代码。
import threading, urllib2
import Queue
urls_to_load = [
'http://stackoverflow.com/',
'http://slashdot.org/',
'http://www.archive.org/',
'http://www.yahoo.co.jp/',
]
def read_url(url, queue):
data = urllib2.urlopen(url).read()
print('Fetched %s from %s' % (len(data), url))
queue.put(data)
def fetch_parallel():
result = Queue.Queue()
threads = [threading.Thread(target=read_url, args = (url,result)) for url in urls_to_load]
for t in threads:
t.start()
for t in threads:
t.join()
return result
def fetch_sequencial():
result = Queue.Queue()
for url in urls_to_load:
read_url(url,result)
return resultfind_sequencial()的最佳时间是2s。fetch_parallel()的最佳时间为0.9s。
而且,说thread在Python中是无用的是不正确的,因为GIL的存在。这是在Python中线程很有用的情况之一,因为线程在I/O上被阻塞了,正如您在我的结果中看到的那样,并行情况要快2倍。
发布于 2010-08-12 22:30:36
编辑:请查看Wai的帖子,以获得更好的代码版本。请注意,这段代码没有什么问题,尽管下面有注释,但将正确地运行。
阅读网页的速度可能受到互联网连接的限制,而不是Python。
您可以使用线程一次加载它们。
import thread, time, urllib
websites = {}
def read_url(url):
websites[url] = urllib.open(url).read()
for url in urls_to_load: thread.start_new_thread(read_url, (url,))
while websites.keys() != urls_to_load: time.sleep(0.1)
# Now websites will contain the contents of all the web pages in urls_to_load发布于 2013-03-09 17:19:48
它不完美。但当我需要网站的数据时。我就是这么做的:
import socket
def geturldata(url):
#NO HTTP URLS PLEASE!!!!!
server = url.split("/")[0]
args = url.replace(server,"")
returndata = str()
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
s.connect((server, 80)) #lets connect :p
s.send("GET /%s HTTP/1.0\r\nHost: %s\r\n\r\n" % (args, server)) #simple http request
while 1:
data = s.recv(1024) #buffer
if not data: break
returndata = returndata + data
s.close()
return returndata.split("\n\r")[1]https://stackoverflow.com/questions/3472515
复制相似问题