首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >MarkLogic内容泵,content_encoding encoding=“US”?

MarkLogic内容泵,content_encoding encoding=“US”?
EN

Stack Overflow用户
提问于 2019-03-04 13:41:54
回答 1查看 160关注 0票数 1

MarkLogic安装在Windows 10计算机上。

我们使用MarkLogic内容泵(MLCP)导入数据。

它运行得很好。

代码语言:javascript
复制
<?xml version="1.0" encoding="UTF-8"?>

它在导入非UTF8编码时显示错误。

代码语言:javascript
复制
<?xml version="1.0" encoding="US-ASCII"?>

我查看了MLCP指南并找到了content_encoding参数,但是它不能工作,抛出的记录错误包含“δ”等特殊字符。

错误mapreduce.ContentWriter: XDMP-DOCENTITYREF:无效实体引用“伽马”

我将按以下方式传递它

代码语言:javascript
复制
mlcp.bat -content_encoding "US-ASCII"

当我看到本文件时,它说“只支持UTF-8”。

当我查看时,它说:“选项值必须是您的JVM接受的字符集名称;

因此,我很困惑,不知道如何解决这个问题,以及如何在JVM中设置字符集。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-03-11 11:56:02

谢谢你的答复。

-xml_repair_level完全工作,所有记录现在都已提交,并且没有失败的记录。

特殊字符(with ;)以实际字符存储在ML中,如下所示

  • λ&lambda
  • 奥奥
  • &mu -μ

我希望从商业角度来看,这应该是可以接受的内容。

现在唯一的主要挑战是使用数百万xml记录中的混淆字符进行测试。

谢谢你的帮助。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54984520

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档