我试着在用德语写的文本中找到月份。(在html文件中)
三月写的是"März“。
我想确定我捕捉到了它,所以我检查
马尔茨,马尔茨,马尔茨
我试着用这段代码
if(preg_match("/ma?ä?(ä)?rz/i", $title))
return 3;它在前两种情况下工作得很好,但不适用于ä。我做错了什么?
( HTML和我的PHP文件是用UTF8编码的)
发布于 2010-11-27 00:29:43
为什么不试一试呢
(Marz|März|März)发布于 2010-11-27 00:50:00
您必须首先对实体进行解码,然后使用适用于Unicode Collation Algorithm的比较。例如,这在Perl中有效:
use Unicode::Collate;
my $Collator = Unicode::Collate->new(normalization => undef, level => 1);
my $str = "Ich muß Perl studieren.";
my $sub = "MÜSS";
my $match;
if (my($pos,$len) = $Collator->index($str, $sub)) {
$match = substr($str, $pos, $len);
}根据您希望完成的比较level,可以匹配有标记和无标记的事物。
我不知道如何在PHP中执行像这样的基本Unicode操作,但我认为一定有一个相应的库,因为这些类型的东西是多么必要。
发布于 2010-11-27 00:54:41
ä不仅仅是一个字节或者类似的东西--你必须这样做:
preg_match("/ma?(ä)?(ä)?rz/i", $title);You can see it here。
此外,Kengs方法更好。
https://stackoverflow.com/questions/4286972
复制相似问题