首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在Nokogiri::XML::DocumentFragment中使用Unicode字符

如何在Nokogiri::XML::DocumentFragment中使用Unicode字符
EN

Stack Overflow用户
提问于 2022-05-12 04:46:34
回答 1查看 63关注 0票数 0

我想在Nokogiri::XML::DocumentFragment中使用Unicode char。

代码语言:javascript
复制
frag = Nokogiri::XML::DocumentFragment.parse("<foo>ü</foo>")
=> <foo>&#xFC;</foo>

对unicode字符进行转义。我需要设置encoding: 'UTF-8'以获得可读的字符。

代码语言:javascript
复制
frag.to_html(encoding: 'UTF-8')
=> "<foo>ü</foo>"

解析字符串时是否有编码选项?

Nokogiri::HTML::DocumentFragment.parse按照我的预期处理字符串,但我需要使用XML

代码语言:javascript
复制
frag = Nokogiri::HTML::DocumentFragment.parse("<foo>ü</foo>")
=> <foo>ü</foo>
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-05-13 05:40:57

根据文档这里,文本已经在内部存储为UTF-8。

字符串在内部总是以UTF-8的形式存储.返回文本值的方法将始终返回UTF-8编码的字符串。返回XML (如to_xml、to_html和inner_html)的方法将返回与源文档一样编码的字符串。

因此,如果您在#text上调用frag,而不是打印整个frag对象,您将看到打印正确

代码语言:javascript
复制
puts frag.text
# => ü

否则,您可以直接使用#XML而不是#DocumentFragment,并显式传递编码。

代码语言:javascript
复制
doc = Nokogiri.XML('<foo>ü</foo>', nil, 'UTF-8')
puts doc

# => <?xml version="1.0" encoding="UTF-8"?>
# => <foo>ü</foo>   
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72210234

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档