我正在尝试编写一行代码,该代码将采用一行日语文本并删除特定的字符集。但是,我在正则表达式中使用unicode字符时遇到了问题。
我当前正在使用text.gsub(/《.*?》/u, ''),但收到错误消息
'gsub': invalid byte sequence in Windows-31J (Argument error)谁能告诉我我做错了什么?
示例文本:その仕草“しぐさ”があまりに無造作“むぞうさ”だったので
预期结果:その仕草があまりに無造作だったので
谢谢
编辑:# encoding: utf-8出现在脚本的顶部。
发布于 2012-03-05 10:19:58
试试这个:
text.encode('utf-8', 'utf-8').gsub(/《.*?》/u, '')https://stackoverflow.com/questions/9560768
复制相似问题