首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用Jena库实现Java链接数据的Web爬虫

用Jena库实现Java链接数据的Web爬虫
EN

Stack Overflow用户
提问于 2012-09-24 18:42:23
回答 1查看 1.2K关注 0票数 1

我必须实现一个访问Web上链接数据的Web。我已经为此建立了一个简单的功能。我对此有三个疑问:

  1. 我应该用的种子是什么?提供RDF格式的数据并遵循Tim 链接数据原则?的网站。
  2. 一般来说,对于网络黑客来说,你所说的圆形方法是什么意思?我读过关于一般Web爬虫的文章,发现应该遵循基于圆的方法。
  3. 我只能解析能够返回RDF/XML数据的网页,.Is,它足以抓取链接的数据。
EN

回答 1

Stack Overflow用户

发布于 2012-09-24 22:25:08

  1. 有几个选项,例如,使用十亿三倍挑战垃圾场中找到的所有URI作为起点,或者使用数据集线器上的脂云组中列出的所有资源(可以通过CKAN API检索)。
  2. 对不起,我不知道。
  3. 不,RDF/XML是不够的,因为许多作为链接数据发布的数据集使用其他格式。您还需要乌龟RDFa。您可以使用Apache Any23,它可以理解上述所有内容。LDSpider是一个使用Any23的爬虫。
票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12570936

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档