首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将Nutch爬行数据索引为弹性搜索的错误

将Nutch爬行数据索引为弹性搜索的错误
EN

Stack Overflow用户
提问于 2018-08-24 22:20:05
回答 1查看 301关注 0票数 0

我正在使用Nutch 1.14,并试图将一个小的web爬虫索引到ES v5.3.0中,我一直得到以下错误:

代码语言:javascript
复制
ElasticIndexWriter
    elastic.cluster : elastic prefix cluster
    elastic.host : hostname
    elastic.port : port
    elastic.index : elastic index command 
    elastic.max.bulk.docs : elastic bulk index doc counts. (default 250)
    elastic.max.bulk.size : elastic bulk index length in bytes. (default 2500500)
    elastic.exponential.backoff.millis : elastic bulk exponential backoff initial delay in milliseconds. (default 100)
    elastic.exponential.backoff.retries : elastic bulk exponential backoff max retries. (default 10)
    elastic.bulk.close.timeout : elastic timeout for the last bulk in seconds. (default 600)


Indexer: java.io.IOException: Job failed!
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:873)
    at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:147)
    at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:230)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
    at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:239)

Error running:
  /home/david/tutorials/nutch/apache-nutch-1.14-src/runtime/local/bin/nutch index -Delastic.server.url=http://localhost:9300/search-index/ searchcrawl//crawldb -linkdb searchcrawl//linkdb searchcrawl//segments/20180824175802
Failed with exit value 255.

我已经做了,但我还是会犯错误.

更新-好的,我已经取得了进展。索引现在似乎起作用了--不再有错误。但是,当我看到通过Kibana使用_stats检查文档计数时,当Nutch告诉我以下内容时,我得到0:

代码语言:javascript
复制
Segment dir is complete: crawl/segments/20180830115119.
Indexer: starting at 2018-08-30 12:19:31
Indexer: deleting gone documents: false
Indexer: URL filtering: false
Indexer: URL normalizing: false
Active IndexWriters :
ElasticRestIndexWriter
    elastic.rest.host : hostname
    elastic.rest.port : port
    elastic.rest.index : elastic index command 
    elastic.rest.max.bulk.docs : elastic bulk index doc counts. (default 250) 
    elastic.rest.max.bulk.size : elastic bulk index length. (default 2500500 ~2.5MB)


Indexer: number of documents indexed, deleted, or skipped:
Indexer:      9  indexed (add/update)
Indexer: finished at 2018-08-30 12:19:45, elapsed: 00:00:14

我假设这意味着ES被发送了9份文档进行索引?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-08-30 15:18:49

我在nutch 1.14中使用了ElasticSearch6.0,它工作起来很有魅力,我使用了带有9200端口的indexer-elastic-rest插件,我正在附加我的nutch-site.xml作为参考。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52012385

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档