MarkLogic安装在Windows 10计算机上。
我们使用MarkLogic内容泵(MLCP)导入数据。
它运行得很好。
<?xml version="1.0" encoding="UTF-8"?>它在导入非UTF8编码时显示错误。
<?xml version="1.0" encoding="US-ASCII"?>我查看了MLCP指南并找到了content_encoding参数,但是它不能工作,抛出的记录错误包含“δ”等特殊字符。
错误mapreduce.ContentWriter: XDMP-DOCENTITYREF:无效实体引用“伽马”
我将按以下方式传递它
mlcp.bat -content_encoding "US-ASCII"当我看到本文件时,它说“只支持UTF-8”。
当我查看这时,它说:“选项值必须是您的JVM接受的字符集名称;
因此,我很困惑,不知道如何解决这个问题,以及如何在JVM中设置字符集。
发布于 2019-03-11 11:56:02
谢谢你的答复。
-xml_repair_level完全工作,所有记录现在都已提交,并且没有失败的记录。
特殊字符(with ;)以实际字符存储在ML中,如下所示
我希望从商业角度来看,这应该是可以接受的内容。
现在唯一的主要挑战是使用数百万xml记录中的混淆字符进行测试。
谢谢你的帮助。
https://stackoverflow.com/questions/54984520
复制相似问题