首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在solr和nutch集成过程中不能向solr发送

在solr和nutch集成过程中不能向solr发送
EN

Stack Overflow用户
提问于 2013-09-09 14:17:26
回答 2查看 1.5K关注 0票数 1

我用的是solr-4.4.0和nutch-1.7。我是索尔和纳奇的新手。我试图使用以下博客整合solr和nutch:

http://www.building-blocks.com/thinking/building-a-search-engine-with-nutch-and-solr-in-10-minutes/

成功启动solr:

代码语言:javascript
复制
manish@ubuntu:~$ cd /usr/local/solr/example/
manish@ubuntu:/usr/local/solr/example$ java -jar start.jar

以及索引的urls成功地::

代码语言:javascript
复制
manish@ubuntu:/usr/local/nutch/bin/nutch crawl urls -dir crawl -depth 3 -topN 50

抽样产出:

代码语言:javascript
复制
fetching http://www.tatvic.com/tatvic-excel-plugin-webinar (queue crawl delay=5000ms)
-activeThreads=10, spinWaiting=9, fetchQueues.totalSize=36
-activeThreads=10, spinWaiting=10, fetchQueues.totalSize=36
-activeThreads=10, spinWaiting=10, fetchQueues.totalSize=36
-activeThreads=10, spinWaiting=10, fetchQueues.totalSize=36
-activeThreads=10, spinWaiting=10, fetchQueues.totalSize=36
-activeThreads=10, spinWaiting=10, fetchQueues.totalSize=36
.
.
.
.
.
..

Parsed (1ms):http://www.tatvic.com/anomaly-detection/
Parsed (1ms):http://www.tatvic.com/blog/dynamic-funnel-in-google-analytics/
Parsed (1ms):http://www.tatvic.com/blog/google-analytics-custom-reports/
Parsed (0ms):http://www.tatvic.com/collaborative-filtering/
Parsed (1ms):http://www.tatvic.com/contact-thanks/
..
.
.
.
.
LinkDb: linkdb: crawl/linkdb
LinkDb: URL normalize: true
LinkDb: URL filter: true
LinkDb: internal links will be ignored.
LinkDb: adding segment: file:/usr/local/nutch/crawl/segments/20130909064920
LinkDb: adding segment: file:/usr/local/nutch/crawl/segments/20130909065449
LinkDb: adding segment: file:/usr/local/nutch/crawl/segments/20130909064936
LinkDb: adding segment: file:/usr/local/nutch/crawl/segments/20130909043135
LinkDb: adding segment: file:/usr/local/nutch/crawl/segments/20130909035154
LinkDb: merging with existing linkdb: crawl/linkdb
LinkDb: finished at 2013-09-09 07:01:53, elapsed: 00:00:04
crawl finished: crawl

但是,当我在solr上发布时,我得到了以下信息:

代码语言:javascript
复制
manish@ubuntu:/usr/local/nutch$ bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*
Indexer: starting at 2013-09-09 07:05:05
Indexer: deleting gone documents: false
Indexer: URL filtering: false
Indexer: URL normalizing: false
No IndexWriters activated - check your configuration

Indexer: finished at 2013-09-09 07:05:12, elapsed: 00:00:07

它到底意味着什么?难道它根本不做张贴??

在浏览器中,它没有显示任何内容:

代码语言:javascript
复制
 http://127.0.0.1:8983/solr/select?q=tatvic

浏览器示例:

代码语言:javascript
复制
 <response><lst name="responseHeader"><int name="status">0</int><int name="QTime">111</int><lst name="params"><str name="q">tatvic</str></lst></lst><result name="response" numFound="0" start="0"/></response>

我试过很多次了!!

我想这可能是个问题。

你能帮我弄清楚吗??

EN

回答 2

Stack Overflow用户

发布于 2014-09-20 06:18:14

我有同样的问题,然后我添加了一些插件的属性,它解决了我的问题。在下面的链接中,我回答了类似的问题。

https://stackoverflow.com/a/25945844/3496666

票数 0
EN

Stack Overflow用户

发布于 2013-09-11 04:01:57

代码语言:javascript
复制
$ bin/nutch solrindex http://localhost:8983/solr/ crawl/crawldb crawl/linkdb crawl/segments/*

SolrIndexer:从2013-09-11 08:23:14开始SolrIndexer: 2013-09-11 08:23:28完成,运行时间: 00:00:13

当我尝试这个的时候,它工作得很好..。

票数 -2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18700371

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档