首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Post到Bluemix Retrieve_and_Rank提供状态0,但不工作

Post到Bluemix Retrieve_and_Rank提供状态0,但不工作
EN

Stack Overflow用户
提问于 2016-07-19 01:48:55
回答 1查看 38关注 0票数 0

我试图在Bluemix检索和排名服务中索引一些网页。因此,我用nutch 1.11爬行种子,将爬行的数据(大约9000 URL)作为文件丢弃,将那些可能的xml文件发布到:

代码语言:javascript
复制
Post_url = '"https://gateway.watsonplatform.net/retrieve-and-rank/api/v1/solr_clusters/%s/solr/%s/update"' %(solr_cluster_id, solr_collection_name)
cmd ='''curl -X POST -H %s -u %s %s --data-binary @%s''' %(Cont_type_xml, solr_credentials, Post_url, myfilename)
subprocess.call(cmd,shell=True)

并将剩下的转换成json,并使用Bluemix Doc服务:

代码语言:javascript
复制
doc_conv_url = '"https://gateway.watsonplatform.net/document-conversion/api/v1/convert_document?version=2015-12-15"'
cmd ='''curl -X POST -u %s -F config="{\\"conversion_target\\":\\"answer_units\\"}" -F file=@%s %s''' %(doc_conv_credentials, myfilename, doc_conv_url)
process = subprocess.Popen(cmd, shell= True, stdout=subprocess.PIPE, stderr=subprocess.PIPE)

然后将这些Json结果保存在一个json文件中,并将其发布到我的集合中:

代码语言:javascript
复制
Post_converted_url = '"https://gateway.watsonplatform.net/retrieve-and-rank/api/v1/solr_clusters/%s/solr/%s/update/json/docs?commit=true&split=/answer_units/id&f=id:/answer_units/id&f=title:/answer_units/title&f=body:/answer_units/content/text"' %(solr_cluster_id, solr_collection_name)
cmd ='''curl -X POST -H %s -u %s %s --data-binary @%s''' %(Cont_type_json, solr_credentials, Post_converted_url, Path_jsonFile)
subprocess.call(cmd,shell=True)

一切听起来都没问题。json文件是它应该是的,当我发布数据时,我确实收到了状态0,我认为这意味着投递是正确的。但当我发出询问时:

代码语言:javascript
复制
pysolr_client = retrieve_and_rank.get_pysolr_client(solr_cluster_id, solr_collection_name)
results = pysolr_client.search(Query_term)
print(results.docs)

结果是什么都没有。它什么也找不到。我以前也做过同样的事情,使用相同的命令的结构和所有的东西,而且它起了作用。我刚做了一个新的系列,现在不行了。

我的数据被索引了吗?那么,为什么查询不能工作呢?当我尝试获取Solr集群的使用统计信息时,结果是:

{"disk_usage":{"used_bytes":2210,"total_bytes":34359738368,"used":"2.1582 KB",“总计”:“32 GB","percent_used":6.4319465309381485E-6}, "memory_usage":{"used_bytes":2069028864,"total_bytes":4194304000,"used":"1.9269 GB",“总计”:“3.9063 GB","percent_used":49.3294921875}}

我认为这意味着我的数据已经被索引并存储在我的集群中。刚才我意识到,每次我发布数据时,数据的使用和内存的使用都不会改变。这是否意味着发帖没有完成?即使我得到了0状态?如果是的话,对问题是什么有什么想法?为什么会这样?

这和solr_config有什么关系吗?

任何关于如何从查询中获得结果的帮助或想法都将受到高度赞赏。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-07-21 21:39:56

用于提交转换后的文件的URL必须将数据拆分为/答案_单元/而不是/答案_单位/id,因此应该是:

Post_converted_url =‘units/content/text’%(solr_cluster_id,solr_collection_name)

支付到拆分=/答案_单位部分。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38448356

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档