我正在解析网页并收集hrefs。因为网页是不受信任的来源,所以它可能包含具有无效语法或非ascii符号的链接。所以据我所知,我需要
1)转换空格和非ascii符号以及其他符号
2)验证步骤1产生的字符串(有效性标准:此url可以在浏览器中输入,它将能够检索由url表示的页面,这样的URL可以由URL/URI构造函数构造,然后检索适当的页面-我可以在firefox中键入一些url,但不能在java中构造实例)。
3)根据(1)构造java.net.URL/URI (如果有效
我发现了两个验证库:1和2 (您更喜欢哪一个?)但是第一个子句没有足够的库(像java.net.URLDecoder/URLEncoder这样的工具)不是为了这个目的。
发布于 2011-06-08 23:46:07
你不能试着在try/catch语句中创建一个URL/URI吗?我认为该类的构造函数会自动处理验证
https://stackoverflow.com/questions/6281540
复制相似问题