问查询网页而不下载
EN

Stack Overflow用户

提问于 2014-02-16 08:58:08

回答 1查看 54关注 0票数 0

我在一个文件中有一个庞大的网页列表(大约180万)。我基本上想要查询这些网页中所使用的字符编码。我本可以使用wget，这将下载页面，然后我可以grep的charset=模式，以获得编码。但我不想下载任何这些页面，而只是查询编码。我怎么能这么做？请给我推荐一些足够快的其他工具。

html

unix

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-02-16 09:03:53

您可以很容易地使用python的requests库来完成这个任务。

Python 2.7.3 (default, Jan  2 2013, 13:56:14) 
[GCC 4.7.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import requests
>>> r = requests.head('http://www.google.com')
>>> r.encoding
'ISO-8859-1'

注意head与get方法的使用(后者将下载整个页面)。

还可以使用带curl的-I标志为“Content”行发出HEAD请求和grep：

jjensen@jjensen-dev:~$ curl -I www.google.com
HTTP/1.1 200 OK
Date: Sun, 16 Feb 2014 09:05:28 GMT
Expires: -1
Cache-Control: private, max-age=0
Content-Type: text/html; charset=ISO-8859-1
Set-Cookie: PREF=ID=081cb517341de334:FF=0:TM=1392541528:LM=1392541528:S=O2_rr0DFBFW5RtJS; expires=Tue, 16-Feb-2016 09:05:28 GMT; path=/; domain=.google.com
Set-Cookie: NID=67=Ouu0WjP7K0cdtuLZ1XTRdETnNTIRbf1DjfopTXoFAdC84DnrQ03OsABMx7QUFlRJ3pPrvkmO8-2nUmVfjjpEMLg-CNlh7wBLmuf5xrbJN-qmPVp7zhfS39q9xrjIOk8B; expires=Mon, 18-Aug-2014 09:05:28 GMT; path=/; domain=.google.com; HttpOnly
P3P: CP="This is not a P3P policy! See http://www.google.com/support/accounts/bin/answer.py?hl=en&answer=151657 for more info."
Server: gws
X-XSS-Protection: 1; mode=block
X-Frame-Options: SAMEORIGIN
Alternate-Protocol: 80:quic
Transfer-Encoding: chunked

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/21809184

复制

相似问题

问查询网页而不下载
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问查询网页而不下载EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问查询网页而不下载
EN