我试图在filter参数中使用regex,但不能使用$来确定字符串的结尾:
我的请求网址:
http://index.commoncrawl.org/CC-MAIN-2017-39-index?url=*.com/&matchtype=domain&fl=url&filter=~url:.com/$
~,这使它成为正则表达式。API文档:https://github.com/ikreymer/pywb/wiki/CDX-Server-API#api-reference
我基本上得到了很多的结果,在每个网站上的网页,我不关心,我只是想要TLD。如果我把$拿出来,它就能工作了。
发布于 2017-10-11 10:11:26
这个查询应该可以工作:http://index.commoncrawl.org/CC-MAIN-2017-39-index?url=*.com/&fl=url&filter=url:.*\.com/$
但是在将来你可能不得不使用http://index.commoncrawl.org/CC-MAIN-2017-39-index?url=*.com/&fl=url&filter=~url:.*\.com/$
https://stackoverflow.com/questions/46672538
复制相似问题