我有一个网络爬虫,可以在不同的网站上运行(在这种情况下是中文)。
现在,当我检索数据并将其显示在我的网站上时,所有的中文字符都变成了垃圾。我读过有关字符编码的文章,发现UTF-8通常是最好的编码。
现在的问题是,当我使用UTF-8时-从WEBSITE-1抓取的数据正确显示,但WEBSITE-2不显示。
对于WEBSITE-2,字符编码gb18030工作正常。
我的问题是,有没有办法知道网站的字符编码,这样我就可以构建一个通用的解决方案?我的意思是,我可以在我的本地网站上呈现一个页面,知道要使用哪种字符编码。通过这种方式,我可以在后端编写代码,而不必在前端真正担心打开页面所需的编码。
现在我有两个页面,一个是UTF8中文字符,另一个是GB18030中文字符。
发布于 2015-01-14 23:40:57
对于html <5,使用html元标记"Content-Type“;对于html 5,使用元标记"char-set”
W3schools charset
https://stackoverflow.com/questions/27946597
复制相似问题