首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用DCAT扩展的收割机被丢弃

使用DCAT扩展的收割机被丢弃
EN

Stack Overflow用户
提问于 2014-10-04 02:11:12
回答 1查看 496关注 0票数 0

我们一直在使用ckanext-dcat从远程的json源中获取数据,有时一些收获作业没有完成,必须与来自该源的所有数据集一起删除,这不是很方便,但一切都回到了正常状态,我不知道是否有一种方法只删除一个作业。

但现在我在“收集消费者日志”中找到了这个:

代码语言:javascript
复制
    Traceback (most recent call last):
  File "/usr/lib/ckan/default/bin/paster", line 9, in <module>
    load_entry_point('PasteScript==1.7.5', 'console_scripts', 'paster')()
  File "/usr/lib/ckan/default/local/lib/python2.7/site-packages/paste/script/command.py", line 104, in run
    invoke(command, command_name, options, args[1:])
  File "/usr/lib/ckan/default/local/lib/python2.7/site-packages/paste/script/command.py", line 143, in invoke
    exit_code = runner.run(args)
  File "/usr/lib/ckan/default/local/lib/python2.7/site-packages/paste/script/command.py", line 238, in run
    result = self.command()
  File "/usr/lib/ckan/default/src/ckanext-harvest/ckanext/harvest/commands/harvester.py", line 129, in command
    gather_callback(consumer, method, header, body)
  File "/usr/lib/ckan/default/src/ckanext-harvest/ckanext/harvest/queue.py", line 219, in gather_callback
    harvest_object_ids = harvester.gather_stage(job)
  File "/usr/lib/ckan/default/src/ckanext-dcat/ckanext/dcat/harvesters.py", line 186, in gather_stage
    content = self._get_content(url, harvest_job, page)
  File "/usr/lib/ckan/default/src/ckanext-dcat/ckanext/dcat/harvesters.py", line 66, in _get_content
    cl = r.headers['content-length']
  File "/usr/lib/ckan/default/local/lib/python2.7/site-packages/requests/structures.py", line 54, in __getitem__
    return self._store[key.lower()][1]
KeyError: 'content-length

作业完成,但没有创建数据集,如果我删除作业并重新收获,它将继续运行,但永不结束,其他收获作业也不会更新。

我怎么才能解决这个问题?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-10-06 10:22:09

@Urkonn,这里发生了不同的事情:

  • 收割机卡住:这可能是由收获的文件中的特定格式或字段触发的在收割机上的buggy实现造成的。很难在不知道更多的情况下进行调试,您能给我一个链接到导致收割机挂起的文件之一,或者当这种情况发生时日志会说什么?
  • 清除一个源而不删除数据集:我完全理解删除所有数据集似乎是过分的,但是如果我们清除源中的作业、对象等,则现有数据集将失去指向源的链接,例如,这意味着它们不在源页上列出。另外,新作业不会知道数据集已经为此源获取,因此即使数据集已经存在,它也会创建副本。也许有办法防止这种情况发生,但我想说,重新创建数据集更安全。
  • KeyError: 'content-length':这是由升级到Request2.3引起的。我已经将补丁推到ckanext-dcat来防止这个1,所以请拔出最新版本来获得补丁,并重新启动所有的收获过程。

1

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26188951

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档