首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏爬虫逆向案例

    NLP自然语言处理002:NLTK中的语料和词汇资源

    len(webtext.sents(fileid)), webtext.encoding(fileid)) 输出结果: firefox.txt 102457 564601 1142 ISO -8859-2 grail.txt 16967 65003 1881 ISO-8859-2 overheard.txt 218413 830118 17936 ISO-8859-2 pirates.txt 22679 95368 1469 ISO-8859-2 singles.txt 4867 21302 316 ISO-8859-2 wine.txt 31350 149772 2984 ISO-8859

    91310发布于 2021-11-22
  • 来自专栏别先生

    Linux下文件字符编码格式检测和转换

    8859-5 KOI8-UNI maccyr IBM855 KOI8-U bulgarian: CP1251 ISO-8859-5 IBM855 maccyr ECMA-113 czech: ISO -8859-2 IBM852 macce CORK hungarian: ISO-8859-2 CP1250 IBM852 macce CORK lithuanian: CP1257 ISO-8859 ISO-8859-13 macce baltic latvian: CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic polish: ISO 8859-13 ISO-8859-16 baltic CORK russian: KOI8-R CP1251 ISO-8859-5 IBM866 maccyr slovak: CP1250 ISO -8859-2 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK slovene: ISO-8859-2 CP1250 IBM852 macce CORK ukrainian

    6.4K21发布于 2020-10-10
  • 来自专栏Java小王子

    python转换字符集

    def URLtoUTF8(string): """""" g_code_type = ['utf-8', 'utf8', 'gb18030', 'gb2312', 'gbk', 'ISO

    95540发布于 2021-11-03
  • 来自专栏别先生

    在Linux中对文件的编码及对文件进行编码转换操作

    KOI8-UNI maccyr IBM855 KOI8-U 3 bulgarian: CP1251 ISO-8859-5 IBM855 maccyr ECMA-113 4 czech: ISO -8_CS_2 CORK 5 estonian: ISO-8859-4 CP1257 IBM775 ISO-8859-13 macce baltic 6 croatian: CP1250 ISO -8859-2 IBM852 macce CORK 7 hungarian: ISO-8859-2 CP1250 IBM852 macce CORK 8 lithuanian: CP1257 ISO 8859-13 macce baltic 9 latvian: CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic 10 polish: ISO ISO-8859-16 baltic CORK 11 russian: KOI8-R CP1251 ISO-8859-5 IBM866 maccyr 12 slovak: CP1250 ISO

    11.2K41发布于 2020-10-10
  • 来自专栏爬虫逆向案例

    NLTK-004:加工原料文本

    此文件是 Latin-2 编码的,也称为 ISO-8859-2。nltk.data.find()函数为我们定位文件。

    76820发布于 2021-11-22
  • 来自专栏全栈程序员必看

    常用的curl命令及参数详解

    ibm918, iso-2022-cn, iso-2022-jp, iso-2022-jp-2, iso-2022-kr, iso-8859-1, iso-8859-13, iso-8859-15, iso ibm918, iso-2022-cn, iso-2022-jp, iso-2022-jp-2, iso-2022-kr, iso-8859-1, iso-8859-13, iso-8859-15, iso

    3.2K20编辑于 2022-07-23
  • 来自专栏设计模式

    关于win10下codeblock的中文乱码问题解决

    ISO-8859-2: Latin-2,支持中欧语言(如波兰语、捷克语等)。 3. UTF-8 描述: UTF-8 是一种可变长度的字符编码,可以表示 Unicode 字符集中的所有字符。

    90310编辑于 2024-12-20
  • 来自专栏全栈程序员必看

    java NIO字符集Charset 支持的所有字符集

    8859-1 ISO-8859-10=ISO-8859-10 ISO-8859-13=ISO-8859-13 ISO-8859-14=ISO-8859-14 ISO-8859-15=ISO-8859-15 ISO -8859-2=ISO-8859-2 ISO-8859-3=ISO-8859-3 ISO-8859-4=ISO-8859-4 ISO-8859-5=ISO-8859-5 ISO-8859-6=ISO-8859

    1.8K30编辑于 2022-11-17
  • 来自专栏_春华秋实

    字符,字符集,字符编码

    但是由于欧洲的语言环境十分复杂,所以根据各地区的语言又形成了很多子标准,ISO-8859-1、ISO-8859-2、ISO-8859-3、……、ISO-8859-16,真是令人发指。

    2.2K30发布于 2019-02-22
  • 来自专栏产品优化

    前端 实战项目·图片加解密二三事

    interface represents a decoder for a specific method, that is a specific character encoding, like utf-8, iso

    2.7K30编辑于 2022-12-01
  • 来自专栏小陈运维

    Archlinux最新安装教程

    8 UTF-8 #br_FR ISO-8859-1 #br_FR@euro ISO-8859-15 #brx_IN UTF-8 #bs_BA.UTF-8 UTF-8 #bs_BA ISO UTF-8 #chr_US UTF-8 #ckb_IQ UTF-8 #cmn_TW UTF-8 #crh_UA UTF-8 #cs_CZ.UTF-8 UTF-8 #cs_CZ ISO -8 #he_IL ISO-8859-8 #hi_IN UTF-8 #hif_FJ UTF-8 #hne_IN UTF-8 #hr_HR.UTF-8 UTF-8 #hr_HR ISO -8859-2 #hsb_DE ISO-8859-2 #hsb_DE.UTF-8 UTF-8 #ht_HT UTF-8 #hu_HU.UTF-8 UTF-8 #hu_HU ISO-8859 -8859-2 #sl_SI.UTF-8 UTF-8 #sl_SI ISO-8859-2 #sm_WS UTF-8 #so_DJ.UTF-8 UTF-8 #so_DJ ISO-8859

    2.8K30发布于 2021-10-13
  • 来自专栏全栈技术

    Web前端基础题18道

    A.使用utf-8编码 B.将阿拉伯文转为图片并嵌入到文档内 C.使用GBK编码 D.使用iso-8859-2编码 【正确答案】A 【答案解析】A。

    2.9K20发布于 2021-08-23
  • 来自专栏CPP开发前沿

    C++读取UTF-8及GBK系列的文本方法及原理

    ( (textCode == "utf-8") || (textCode == "UTF-8") || (textCode == "ISO

    2.7K20发布于 2021-11-25
  • 来自专栏Albert陈凯

    文本编码转换工具iconv 附批量转换文件编码命令

    JAVA CP819 IBM819 ISO-8859-1 ISO-IR-100 ISO8859-1 ISO_8859-1 ISO_8859-1:1987 L1 LATIN1 CSISOLATIN1 ISO

    7.4K90发布于 2018-04-04
  • 来自专栏跟Qt君学编程

    设置程序运行时的字符编码

    Ukrainian (KOI8-U); Cyrillic (KOI8-U) 28591 iso-8859-1 ISO 8859-1 Latin 1; Western European (ISO) 28592 iso

    1.7K10发布于 2020-02-27
  • 来自专栏数据STUDIO

    真棒!彻底解决了一直困扰的编码问题

    2022-jp-2 日文,韩文,简体中文,西欧,希腊文 latin_1 iso-8859-1, iso8859-1, 8859, cp819, latin, latin1, L1 西欧 iso8859_2 iso

    1.7K40发布于 2021-06-24
  • 来自专栏小工匠聊架构

    Java-Java I/O流解读之基于字符的I / O和字符流

    , ISO-2022-KR=ISO-2022-KR, ISO-8859-1=ISO-8859-1, ISO-8859-13=ISO-8859-13, ISO-8859-15=ISO-8859-15, ISO -8859-2=ISO-8859-2, ISO-8859-3=ISO-8859-3, ISO-8859-4=ISO-8859-4, ISO-8859-5=ISO-8859-5, ISO-8859-6=ISO

    2.2K30发布于 2021-08-17
  • 来自专栏python前行者

    [662]静态html提取正文的API和开源算法

    -8时,de_code=utf-8,可以获取到内容 de_code = 'utf-8' elif de_code in ['ISO-8859-1', 'ISO

    2.1K50编辑于 2025-08-22
  • 来自专栏苦逼的码农

    彻底摆脱乱码的困惑

    你可能知道 Unicode 分 UTF-8、UTF-16、UCS-2 等,而 ISO-8859 也分 ISO-8859-1、ISO-8859-2……你会不会觉得它们是一样的道理呢?错! ISO-8859 是一个字符集的系列,分成 ISO-8859-1、ISO-8859-2 等好多字符集,而每个字符集对应的编码方式就是 ISO-8859-1 编码、ISO-8859-2 编码,是一对一的关系

    1.9K40发布于 2020-12-11
  • 来自专栏全栈程序员必看

    彻底摆脱乱码的困惑

    你可能知道 Unicode 分 UTF-8、UTF-16、UCS-2 等,而 ISO-8859 也分 ISO-8859-1、ISO-8859-2……你会不会觉得它们是一样的道理呢?错! ISO-8859 是一个字符集的系列,分成 ISO-8859-1、ISO-8859-2 等好多字符集,而每个字符集对应的编码方式就是 ISO-8859-1 编码、ISO-8859-2 编码,是一对一的关系

    1.3K30发布于 2021-04-07
领券