我想要将UTF-8字符串中的每个单词大写。但是,我需要该函数忽略单词开头的一些特殊字符,如"(-.,“)。该函数将用于将歌曲标题大写,如下所示:
marko,gabriel boni,simple jack - recall (原创混音)
...would输出:
Marko,Gabriel Boni,Simple Jack - Recall (原创混音)
它还应该能够大写UTF-8字符,如“节”>“ä”。"é“>”“。
发布于 2011-05-24 19:06:42
"åbc".mb_chars.capitalize
#=> "Åbc"
"ébc".mb_chars.capitalize.to_s
#=> "Ébc"更新
并且不忽略任何单词字符:
string = "-åbc"
str = string.match(/^(\W*)(.*)/)
str[1] + str[2].mb_chars.capitalize.to_s
#=> "-Åbc" 发布于 2011-05-24 18:55:17
是不是有什么原因导致unicode library的Unicode::capitalize方法不适合你的需求?
irb(main):013:0> require 'unicode'
=> true
irb(main):014:0> begin Unicode::capitalize 'åäöéèí' rescue $stderr.print "unicode error\n" end
=> "Åäöéèí"
irb(main):015:0> begin Unicode::capitalize '-åäöéèí' rescue $stderr.print "unicode error\n" end
=> "-åäöéèí"发布于 2011-05-24 17:02:41
我这样做了,想要过滤很多东西。
我创建了一个常量文件initializers/constants.rb
letters = ("a".."z").collect
numbers = ("1".."9").collect
symbols = %w[! @ # $ % ^ & * ( ) _ - + = | \] { } : ; ' " ? / > . < , ]
FILTER = letters + numbers + symbols然后检查它是否在我的过滤器中:
if !FILTER.include?(c)
#no
else
#yes
end您还可以检查unicode的值,但您需要知道范围或特定值。我是用汉字做的,所以我的价值观就是从这里得到的。我将发布一些代码,只是为了给你一个想法:
def check(char)
char = char.unpack('U*').first
if char >= 0x4E00 && char <= 0x9FFF
return true
end
if char >= 0x3400 && char <= 0x4DBF
return true
end
if char >= 0x20000 && char <= 0x2A6DF
return true
end
if char >= 0x2A700 && char <= 0x2B73F
return true
end
return false
end当然,您需要知道这里的特定值。
https://stackoverflow.com/questions/6107925
复制相似问题