首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >无法识别Saxon输入编码?

无法识别Saxon输入编码?
EN

Stack Overflow用户
提问于 2020-09-18 15:45:49
回答 1查看 148关注 0票数 0

我在Saxon xslt处理器的utf-8文本输出中得到奇怪的字符。

输入xml的开头是

代码语言:javascript
复制
<?xml version="1.0" encoding="windows-1252"?>

它包含这样的字符串(在notepad++中显示,编码为Windows-1252,右下方显示)

代码语言:javascript
复制
“abc”

转换样式表包含

代码语言:javascript
复制
<xsl:output method="text" encoding="utf-8" />

但是输出包含(在notepad++中显示,使用UTF-8编码显示在右下方)

代码语言:javascript
复制
�abc�

而不是UTF-8编码

代码语言:javascript
复制
“abc”

知道我错过了什么吗?

附注:当我使用notepad++将xml输入从windows-1252更改为UTF-8时,输出编码正确,这就是我的解决办法。然而,我想知道我是否遗漏了什么,或者某些软件在字符集方面应该改进。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-09-18 17:29:42

我怀疑,尽管输入标记为windows-1252,但它实际上并不是Windows-1252。

首先,尝试找出问题是在输入上还是在序列化上。可以通过在XSLT代码中使用string-to-codepoints()来查看解析后的节点树中存在哪些实际代码点。

如果是输入问题,那么这是XML解析器的责任,而不是Saxon本身的责任,所以这取决于您使用的是哪个XML解析器。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63951365

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档