文章/答案/技术大牛

发布

问Unicode查询参数的Punycode
EN

Stack Overflow用户

提问于 2015-06-19 02:04:25

回答 1查看 2K关注 0票数 3

我正在尝试用Punycode编码一些Unicode URL。这些URL具有一个查询参数，其中包含非ASCII字符，例如：

https://en.wiktionary.org/w/index.php?title=Clœlia&printable=yes

问题是，当我尝试用Java进行操作时，得到的URL是错误的：

String link = "https://en.wiktionary.org/w/index.php?title=Clœlia&printable=yes";
link = IDN.toASCII(link);

// -> link = http://en.wiktionary.org/w/index.xn--php?title=cllia&printable=yes-hgf

如果我这样做，结果字符串是不同的(我不知道为什么)，但也是错误的：

String link = "http://en.wiktionary.org/w/index.php?title=" + IDN.toASCII("Clœlia") + "&printable=yes";

// -> link = http://en.wiktionary.org/w/index.php?title=xn--cllia-ibb&printable=yes

如果我从Chrome复制地址并粘贴到这里，我就会得到这个URL，这就是我想要的：

https://en.wiktionary.org/w/index.php?title=Cl%C5%93lia&printable=yes

我在这里做错了什么？

java

url

unicode

punycode

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-06-19 06:34:56

你做错了就用了小代码。Punycode只用于域名，包括URL中的域名部分.

URL的其他部分，包括查询参数部分，使用百分比编码 (也称为URL编码或URI编码)，这就是Chrome正在做的事情；这将在UTF-8中编码非ASCII Unicode字符，然后使用百分比符号(%)和两个十六进制数字对所有不在ASCII有限子集中的八进制进行编码；UTF-8用于非ASCII的octets 80-FF始终是%编码的。确切地说，查询参数部分(通常和其他部分)有时使用为HTML提交定义为application/x-www-form-urlencoded的一个细微的变体；这将空间编码为加号'+‘，而不是%20，这是明确的，因为'+’已经在不安全的集合中，因此编码为%2B。

在Java中，为此使用java.net.URLEncoder.encode和java.net.URLDecoder.decode；要获得可靠的结果，请使用编码名为"UTF-8“的新的2-arg表单。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/30928778

复制

相似问题

问Unicode查询参数的Punycode
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Unicode查询参数的PunycodeEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Unicode查询参数的Punycode
EN