我想在Nokogiri::XML::DocumentFragment中使用Unicode char。
frag = Nokogiri::XML::DocumentFragment.parse("<foo>ü</foo>")
=> <foo>ü</foo>对unicode字符进行转义。我需要设置encoding: 'UTF-8'以获得可读的字符。
frag.to_html(encoding: 'UTF-8')
=> "<foo>ü</foo>"解析字符串时是否有编码选项?
Nokogiri::HTML::DocumentFragment.parse按照我的预期处理字符串,但我需要使用XML。
frag = Nokogiri::HTML::DocumentFragment.parse("<foo>ü</foo>")
=> <foo>ü</foo>发布于 2022-05-13 05:40:57
根据文档这里,文本已经在内部存储为UTF-8。
字符串在内部总是以UTF-8的形式存储.返回文本值的方法将始终返回UTF-8编码的字符串。返回XML (如to_xml、to_html和inner_html)的方法将返回与源文档一样编码的字符串。
因此,如果您在#text上调用frag,而不是打印整个frag对象,您将看到打印正确
puts frag.text
# => ü否则,您可以直接使用#XML而不是#DocumentFragment,并显式传递编码。
doc = Nokogiri.XML('<foo>ü</foo>', nil, 'UTF-8')
puts doc
# => <?xml version="1.0" encoding="UTF-8"?>
# => <foo>ü</foo> https://stackoverflow.com/questions/72210234
复制相似问题