首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >清洗受污染的数据

清洗受污染的数据
EN

Stack Overflow用户
提问于 2011-09-01 01:48:24
回答 3查看 149关注 0票数 1

当我清洗被污染的数据,检查它是否有任何坏字符时,有没有unicode属性可以过滤坏字符?

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-09-01 02:51:12

我认为“不”是一个轻描淡写的答案,但你已经知道了。不,Unicode没有“坏”或“好”字符的概念(更不用说“丑陋的”字符了)。

票数 3
EN

Stack Overflow用户

发布于 2011-09-01 04:12:44

User-Defined Character Properties in perlunicode

代码语言:javascript
复制
package Characters::Sid_com;

sub InBad {
return <<"BAD";
0000\t10FFFF
BAD
}

sub InEvil {
return <<"EVIL";
0488
0489
EVIL
}

sub InStupid {
return <<"STUPID";
E630\tE64F
F8D0\tF8FF
STUPID
}

⋮

die 'No.' if $tring =~ /
    (?: \p{Characters::Sid_com::InBad}
      | \p{Characters::Sid_com::InEvil}
      | \p{Characters::Sid_com::InStupid}
    )
/x;
票数 4
EN

Stack Overflow用户

发布于 2011-09-01 14:58:14

XML (以及XHTML)只能包含以下字符:

代码语言:javascript
复制
\x09 \x0A \x0D
\x{0020}-\x{D7FF}
\x{E000}-\x{FFFD}
\x{10000}-\x{10FFFF}

在上述情况下,应避免以下情况:

代码语言:javascript
复制
\x7F-\x84
\x86-\x9F
\x{FDD0}-\x{FDEF}
\x{1FFFE}-\x{1FFFF}
\x{2FFFE}-\x{2FFFF}
\x{3FFFE}-\x{3FFFF}
\x{4FFFE}-\x{4FFFF}
\x{5FFFE}-\x{5FFFF}
\x{6FFFE}-\x{6FFFF}
\x{7FFFE}-\x{7FFFF}
\x{8FFFE}-\x{8FFFF}
\x{9FFFE}-\x{9FFFF}
\x{AFFFE}-\x{AFFFF}
\x{BFFFE}-\x{BFFFF}
\x{CFFFE}-\x{CFFFF}
\x{DFFFE}-\x{DFFFF}
\x{EFFFE}-\x{EFFFF}
\x{FFFFE}-\x{FFFFF}
\x{10FFFE}-\x{10FFFF}

如果您正在生成XHTML,则需要避开以下内容:

  • & &amp;
  • < &lt;
  • > (optional)
  • " &amp;
  • <&lt;
  • >(optional)
  • " ")
  • ' ')

&gt; &quot; &apos;⇒(可选,但在使用')分隔的属性值中除外

HTML应该有相同的要求,如果不是更宽松的话,所以如果你坚持这样做,你应该是安全的。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7261162

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档