首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >RegEx on CommonCrawl API过滤器参数

RegEx on CommonCrawl API过滤器参数
EN

Stack Overflow用户
提问于 2017-10-10 17:26:03
回答 1查看 346关注 0票数 0

我试图在filter参数中使用regex,但不能使用$来确定字符串的结尾:

我的请求网址:

http://index.commoncrawl.org/CC-MAIN-2017-39-index?url=*.com/&matchtype=domain&fl=url&filter=~url:.com/$

API文档:https://github.com/ikreymer/pywb/wiki/CDX-Server-API#api-reference

我基本上得到了很多的结果,在每个网站上的网页,我不关心,我只是想要TLD。如果我把$拿出来,它就能工作了。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-10-11 10:11:26

这个查询应该可以工作:http://index.commoncrawl.org/CC-MAIN-2017-39-index?url=*.com/&fl=url&filter=url:.*\.com/$

但是在将来你可能不得不使用http://index.commoncrawl.org/CC-MAIN-2017-39-index?url=*.com/&fl=url&filter=~url:.*\.com/$

  1. 在pywb #249中有一个已知的bug。希望很快就能修复并部署到index.commoncrawl.org上。作为一种临时的解决方案:使用=作为regex过滤器,使用=~表示“包含”过滤器。
  2. 这里不需要matchType=domain,因为*.com/已经被通配符模式*.com/匹配。它应该用来查询域名,例如http://index.commoncrawl.org/CC-MAIN-2017-39-index?url=commoncrawl.org&matchType=domain&fl=url
  3. 正则表达式从字段值的开头就匹配,因此应该是.*\.com/$。请参阅pywb#250中的改进文档。
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46672538

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档