首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >查询网页而不下载

查询网页而不下载
EN

Stack Overflow用户
提问于 2014-02-16 08:58:08
回答 1查看 54关注 0票数 0

我在一个文件中有一个庞大的网页列表(大约180万)。我基本上想要查询这些网页中所使用的字符编码。我本可以使用wget,这将下载页面,然后我可以grep的charset=模式,以获得编码。但我不想下载任何这些页面,而只是查询编码。我怎么能这么做?请给我推荐一些足够快的其他工具。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-02-16 09:03:53

您可以很容易地使用python的requests库来完成这个任务。

代码语言:javascript
复制
Python 2.7.3 (default, Jan  2 2013, 13:56:14) 
[GCC 4.7.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import requests
>>> r = requests.head('http://www.google.com')
>>> r.encoding
'ISO-8859-1'

注意headget方法的使用(后者将下载整个页面)。

还可以使用带curl的-I标志为“Content”行发出HEAD请求和grep

代码语言:javascript
复制
jjensen@jjensen-dev:~$ curl -I www.google.com
HTTP/1.1 200 OK
Date: Sun, 16 Feb 2014 09:05:28 GMT
Expires: -1
Cache-Control: private, max-age=0
Content-Type: text/html; charset=ISO-8859-1
Set-Cookie: PREF=ID=081cb517341de334:FF=0:TM=1392541528:LM=1392541528:S=O2_rr0DFBFW5RtJS; expires=Tue, 16-Feb-2016 09:05:28 GMT; path=/; domain=.google.com
Set-Cookie: NID=67=Ouu0WjP7K0cdtuLZ1XTRdETnNTIRbf1DjfopTXoFAdC84DnrQ03OsABMx7QUFlRJ3pPrvkmO8-2nUmVfjjpEMLg-CNlh7wBLmuf5xrbJN-qmPVp7zhfS39q9xrjIOk8B; expires=Mon, 18-Aug-2014 09:05:28 GMT; path=/; domain=.google.com; HttpOnly
P3P: CP="This is not a P3P policy! See http://www.google.com/support/accounts/bin/answer.py?hl=en&answer=151657 for more info."
Server: gws
X-XSS-Protection: 1; mode=block
X-Frame-Options: SAMEORIGIN
Alternate-Protocol: 80:quic
Transfer-Encoding: chunked
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21809184

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档