tutorial谈到了在亚马逊上建立一个Freebase实例。当我遵循这个过程时,我最终得到了一个实例,该实例通过EBS连接到Freebase数据。有人可以帮助我完成一个过程,我可以使用底层数据来创建Freebase API。
我假设,就像一个人可以在Virtuoso上托管Dbpedia一样,Dbpedia作为API公开,应该(假设)有一种方法来托管Freebase。我没有找到与此相关的资源。任何帮助都将不胜感激!
谢谢
Ankit S
发布于 2014-12-29 23:03:20
Virtuoso是一款软件。Freebase是一个开源数据库/数据源,但提供Freebase API的软件不是开源的(或可用的),因此如果不重新实现该软件,就无法在Amazon上托管Freebase API。
如果您想使用数据,最直接的方法可能是使用Cayley或Neo4J等图形数据库或Virtuoso等RDF数据库,然后使用SPARQL或图形DB查询它。
发布于 2014-12-30 17:26:50
我将freebase放入Solr/Lucene中。它似乎工作得特别好。对象字段被克隆和标记化,以便进行良好的文本搜索。另一个层次结构被保留下来,以便进行精确匹配。将其放入8个内核中。
我认为只有5种类型的三元组需要解析。
# <><><///...>.
# <><><///#>.
# <><>"".
# <><>""@x.
# <><>""^^<>.解析两边的引文,这样你就知道你在处理什么了。我将三元组限制为32K字节。我把熔渣踢到一个gz文件中查看,如果有格式变化,我会重新添加。我检查它的格式是否正确。它花了5天的时间加载。Solr使用Jetty,它很特殊;数据必须正确转义,不&,大约有20个三元组,具有ascii 0,11,..,您可能想要将它们放入渣堆中。多亏了Solr项目,它进行得很好。
关于解压它的说明。我把它分成了100个文件。Java在这方面表现不佳,Ruby也是如此。您可以在脚本中使用-c | pipe。您可能无法将其包含在一个ruby或java程序中。找不到原因。在主机上,khugepaged = bad。200G的ram,它使用了16个CPU中的100%,持续了5分钟。
https://stackoverflow.com/questions/27532047
复制相似问题