文章/答案/技术大牛

发布

社区首页 >问答首页 >Heritrix单站点刮擦，包括所需的场外资产

问Heritrix单站点刮擦，包括所需的场外资产
EN

Stack Overflow用户

提问于 2015-05-26 15:49:06

回答 1查看 599关注 0票数 3

我认为需要帮助编译Heritrix决定规则，尽管我愿意接受Heritrix的其他建议：https://webarchive.jira.com/wiki/display/Heritrix/Configuring+Crawl+Scope+Using+DecideRules

我需要刮一整份的网站(在爬虫-beans.cxml种子列表)，但不刮任何外部(场外)页面。呈现当前网站所需的任何外部资源都应该被下载，但是不要遵循任何链接到网站以外的页面--只有当前页面/域的资产。

例如，呈现页面所需的CDN内容可能托管在外部域(可能是AWS或Cloudflare)，因此我需要下载该内容，并跟踪所有域上的链接，但是不要遵循指向当前域范围以外页面的任何链接。

java

web-crawler

heritrix

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-05-27 13:25:27

您可以使用3条决定规则：

第一个页面接受所有非html页面，使用ContentTypeNotMatchesRegexDecideRule；
第二个接受当前域中的所有urls。
第三个选项拒绝所有不在域中且不能直接从域到达的页面( alsoCheckVia选项)。

所以类似的事情：

<bean id="scope" class="org.archive.modules.deciderules.DecideRuleSequence">
 <property name="rules">
  <list>
   <!-- Begin by REJECTing all... -->
   <bean class="org.archive.modules.deciderules.RejectDecideRule" />

   <bean class="org.archive.modules.deciderules.ContentTypeNotMatchesRegexDecideRule">
    <property name="decision" value="ACCEPT"/>
    <property name="regex" value="(?i)html|wml"/>
   </bean>
   <bean class="org.archive.modules.deciderules.surt.SurtPrefixedDecideRule">
    <property name="decision" value="ACCEPT"/>
    <property name="surtsSource">
     <bean class="org.archive.spring.ConfigString">
      <property name="value">
       <value>
        http://(org,yoursite,
       </value>
      </property> 
     </bean>
    </property>
   </bean>
   <bean class="org.archive.modules.deciderules.surt.NotSurtPrefixedDecideRule">
    <property name="decision" value="REJECT"/>
    <property name="alsoCheckVia" value="true"/>
    <property name="surtsSource">
     <bean class="org.archive.spring.ConfigString">
      <property name="value">
       <value>
        http://(org,yoursite,
       </value>
      </property> 
     </bean>
    </property>
   </bean>
  </list>
 </property>
</bean>

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/30463262

复制

相似问题

问Heritrix单站点刮擦，包括所需的场外资产
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Heritrix单站点刮擦，包括所需的场外资产EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Heritrix单站点刮擦，包括所需的场外资产
EN