首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从WARC文件导入数据(WebArchive)

从WARC文件导入数据(WebArchive)
EN

Stack Overflow用户
提问于 2017-07-03 12:27:08
回答 1查看 177关注 0票数 0

我正在处理一个不太正常的用例,其中数据存在于WARC文件中。[https://en.wikipedia.org/wiki/Web_ARChive][1]和我想把数据导入到Neo4j中。

我能想到的一种解决方案是解析WARC文件(一些要读取的java代码),然后将结构化数据写入CSV,这样就可以使用某个导入工具加载它。

提取到CSV是将数据加载到Neo4j的唯一选择吗?

你能给我一些关于如何实现这个用例的建议吗?

谢谢,

Phaneendra

EN

回答 1

Stack Overflow用户

发布于 2017-07-03 16:48:35

那得看情况。

这取决于您要从Web Archive加载的数据。如果你说的是加载元数据...然后,您不需要中间步骤,只需处理文件并将数据直接插入到数据库中。为此,您可以使用存储过程(apoc库中充满了类似的东西),或者使用您最喜欢的语言+驱动程序的小型服务器应用程序。

如果你谈论的是Web Archive中的内容,那就是另一回事了。Neo4j不是blob/文档存储,因此您必须提取和解释归档文件。这在间接过程中可能会更有效率。

希望这能帮上忙,汤姆

顺便说一句,csv不是唯一可以加载的格式。这里有一些加载xml、json等的过程。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44877811

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档