我正在处理一个不太正常的用例,其中数据存在于WARC文件中。[https://en.wikipedia.org/wiki/Web_ARChive][1]和我想把数据导入到Neo4j中。
我能想到的一种解决方案是解析WARC文件(一些要读取的java代码),然后将结构化数据写入CSV,这样就可以使用某个导入工具加载它。
提取到CSV是将数据加载到Neo4j的唯一选择吗?
你能给我一些关于如何实现这个用例的建议吗?
谢谢,
Phaneendra
发布于 2017-07-03 16:48:35
那得看情况。
这取决于您要从Web Archive加载的数据。如果你说的是加载元数据...然后,您不需要中间步骤,只需处理文件并将数据直接插入到数据库中。为此,您可以使用存储过程(apoc库中充满了类似的东西),或者使用您最喜欢的语言+驱动程序的小型服务器应用程序。
如果你谈论的是Web Archive中的内容,那就是另一回事了。Neo4j不是blob/文档存储,因此您必须提取和解释归档文件。这在间接过程中可能会更有效率。
希望这能帮上忙,汤姆
顺便说一句,csv不是唯一可以加载的格式。这里有一些加载xml、json等的过程。
https://stackoverflow.com/questions/44877811
复制相似问题