我正在做语言分割项目。我对英语应用了语言分割,方法是使用正则表达式断开字符串。(“句号”)。现在我想提供以下语言(中文,阿拉伯语,日语,俄语,韩语,荷兰语,印地语,希腊语,乌尔都语)的支持。我想在句号上打断上面提到的语言字符串。
例如:
对于中文,句号是。(Unicode值U+3002)字符串
以有效應對各種事態」。他還表示,希望以符合21世紀的方式切實深化美日同盟關係。预期结果
Segment 1 :- 以有效應對各種事態」。
Segment 2 :- 他還表示,希望以符合21世紀的方式切實深化美日同盟關係。同样的逻辑我必须申请其他语言(阿拉伯语,日语,俄语,韩语,荷兰语,印地语,希腊语,乌尔都语)。
发布于 2010-10-26 15:05:45
参见String.split。您可以使用/([。])/作为正则表达式分隔符。在方括号内添加其他标点符号。圆括号将capture your delimiters。
发布于 2012-11-15 21:06:11
在php中你可以使用preg_split( REGEX , $yourString );。
用您的正则表达式替换单词REGEX。可能就像@janmoesen提到的那样。
https://stackoverflow.com/questions/4021283
复制相似问题