ISO-8859-2: Latin-2,支持中欧语言(如波兰语、捷克语等)。 3. UTF-8 描述: UTF-8 是一种可变长度的字符编码,可以表示 Unicode 字符集中的所有字符。
500V1 Cp737 PC Greek Cp775 PC Baltic Cp838 IBM Thailand extended SBCS Cp850 MS-DOS Latin-1 Cp852 MS-DOS Latin MS-DOS Nordic Cp866 MS-DOS Russian Cp868 MS-DOS Pakistan Cp869 IBM Modern Greek Cp870 IBM Multilingual Latin conversion to Unicode only) MS874 Windows Thai MacArabic Macintosh Arabic MacCentralEurope Macintosh Latin
此文件是 Latin-2 编码的,也称为 ISO-8859-2。nltk.data.find()函数为我们定位文件。
其余从ISO 8859-2到ISO 8859-16各自所收录的字符如下: ISO 8859-2字符集,也称为Latin-2,收录了东欧字符; ISO 8859-3字符集,也称为Latin-3,收录了南欧字符
下面列举两种常用的: ISO/IEC 8859-1:1998,又称Latin-1或“西欧语言” ISO/IEC 8859-2:1999,又称Latin-2或“中欧语言” 对于拉丁语国家,
字符集 字符集描述 ISO8859-1 字符集( Latin-1) 西欧常用字符,包括德、法两国的字母 ISO8859-2 字符集( Latin-2) 东欧字符 ISO8859-3 字符集( Latin
举几个字符集作为了解: ISO/IEC 8859-1 (Latin-1) - 西欧语言 ISO/IEC 8859-2 (Latin-2) - 中欧语言 ISO/IEC 8859-3 (Latin-3)
以下是全部的 ISO-8859 系列: 标准名称 别名 适用范围 ISO/IEC 8859-1 Latin-1 西欧语言 ISO/IEC 8859-2 Latin-2 中欧语言 ISO/IEC 8859
以下是全部的 ISO-8859 系列: 标准名称 别名 适用范围 ISO/IEC 8859-1 Latin-1 西欧语言 ISO/IEC 8859-2 Latin-2 中欧语言 ISO/IEC 8859