首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >是否有用于所有国际句号标点的字符集?

是否有用于所有国际句号标点的字符集?
EN

Stack Overflow用户
提问于 2012-03-01 05:25:44
回答 2查看 1.5K关注 0票数 7

我正在尝试将utf-8字符串解析成“一口大小”的片段。例如,我想把一个文本分解成几个“句子”。

是否有与所有语言中的句子结尾相对应的字符(或正则表达式)的综合集合?我在找一些能捕捉到拉丁语句号,感叹号和问号,中文和日语句号等的东西。

类似于上面的内容,但是对于等同于逗号的内容也很好。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-03-01 05:50:16

我还没有遇到任何此类信息的汇编,我预计这将是收集这些信息的主要努力。对于一些广泛使用的语言,您可以从芝加哥风格手册中获得信息。在http://unicode.org/repos/cldr-tmp/trunk/diff/by_type/misc.exemplarCharacters-other.html上有一些关于不同语言中常用的标点符号的信息,但它只涵盖了一小部分语言,并且没有区分以句子结尾的字符。

仅仅使用字符是不够的,因为例如在英语中,句号“。出现在许多不以句子结尾的上下文中,如“例如”或者在“1.5”中。

票数 3
EN

Stack Overflow用户

发布于 2012-03-01 06:32:11

中国人、日本人和韩国人使用。泰语使用空格。请参阅以下Unicode full stop equivalents列表。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9506869

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档