当我从大多数站点和pdfs复制/粘贴文本时,以下字符几乎总是在unicode等价物中:
双引号:“is”和“is”( ”)
“引用:‘is’和‘is’(‘和’)
…))
我理解那些没有unicode (如c和c)就无法表示的内容,但即使是那些,我也想知道。
什么时候应该使用这些unicode等价物?它们比不使用它们更有语义吗?它们被设备(复制/粘贴/打印)解释得更好吗?我总是觉得获取这些引号和省略字符很烦人,因为在textmate +编程中,您不使用它们。
发布于 2011-03-23 17:13:01
我认为有一个简单的解释: MS Word在键入这些字符/序列时会自动转换这些字符/序列,并且互联网上的许多文本都是从这个文本编辑器中复制出来的。
我为我的网站从其他作者那里获得的大多数文章都是作为.doc文件发送的,我必须转换它。通常,它包含您提到的这些字符。
我还想再添加一个:许多不同类型的破折号,而不是连字符。还有低开场白的双引号(在一些欧洲语言中见过)。
我通常让他们呆在文本中(我所有的页面都是unicode)。在玩regex等游戏时,记住这一点很重要(特别是破折号很难识别)。
发布于 2011-03-23 17:35:38
什么时候应该使用这些unicode等价物?它们比不使用它们更有语义吗?
请注意,这些不是“unicode等价物”。这些字符在Unicode以外的许多字符集中都可用,它们与您建议的替代方案有严格的区别。
在排版中,单引号和双引号的左右两种版本是正确的。它们为那些多年来在印刷媒体中使用的字符提供了传统的外观。省略字符为省略号提供了正确的间距,当使用连续的句号字符时,省略号不会自然发生。所以,所有这些被使用的原因都是为了使文本对人类读者来说是正确的。
:它们是否被设备(复制/粘贴/打印)解释得更好?
任何使用任何字符集的系统都应设计为正确处理该字符集。如果文本是用Unicode编码的,那么任何最近的系统(至少过去15年)都应该能够处理它,因为Unicode是所有现代系统事实上的标准字符集。
并非所有与Unicode兼容的系统都能够正确显示所有字符。这将取决于可用的字体,甚至取决于使用字体的呈现系统。但是,任何与Unicode兼容的系统都可以不改变地传输字符(例如在复制和粘贴操作中)。
我总是觉得得到这些引号和省略字符很烦人,因为在textmate +编程中,您不使用它们。
将英语(或任何语言)文本直接复制到程序中,而不需要在文本中添加单独的分隔符,这是不寻常的。但是,大多数现代编程语言一旦对文本进行属性分隔,就不会有任何困难。
任何不能正确处理Unicode的系统都应该更新。遗留字符编码在未来将没有任何位置。
发布于 2011-03-23 17:15:40
HTML实体具有三重用途:
可以使用不属于文档字符集的字符,例如,在document.
更新:
我的信息是正确的,但我怀疑我回答错了问题.
https://stackoverflow.com/questions/5408968
复制相似问题