MarkLogic不“处理”EPUB。CPF不需要。MLCP则不会。
EPUB是一个主要包含xhtml、xml和图片的压缩包。我可以将其重命名为.zip,并使用MLCP加载它。但是重命名并不是很好,它会显示在URI中,除非我在URI创建等内容中添加一个替换。
此外,.opf文件包含有用的信息,它是可扩展标记语言,但以二进制格式读取。我可以将.OPF添加到MIME类型中,但这与使用MLCP从归档中加载不起作用,然后它仍然会再次显示为二进制。
我讨厌在数据加载到ML之前添加一个额外的层来“准备”数据。我希望尽可能保持信息的可读性/可索引性。
有没有比重命名、解压缩和mime类型更好的方法将EPUB文件加载到MarkLogic中?
发布于 2016-09-13 15:44:47
我个人认为我会使用MLCP转换。您知道它是压缩数据,所以您可以在转换中安全地应用xdmp:zip-manifest。您可以在转换中发出多个map:map对象,epub zip中的每个部分都有uri/value。您可以使用选项告诉xdmp:zip-get以特定格式读取特定文件。
哈!
发布于 2016-09-14 12:19:23
您是希望将.opf文件作为单个文档加载到数据库中,还是希望mlcp将其解压缩并将包含的XHTML、XML和图像文件作为单个文档插入到数据库中?
如果是后者,您也许能够通过使用-input_compression_codec选项来实现它(无需重命名源文件)。请参阅文档中的此主题:
http://docs.marklogic.com/guide/mlcp/import#id_13251
https://stackoverflow.com/questions/39464452
复制相似问题