首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏人人都是架构师

    Ftfy:文本编码修复

    FTFY 露个脸 FTFY(Fixes Text For You,为你修复文本)是一个精心设计的Python库,它专门解决文本中的编码问题,如字符混乱、错误编码转换等。 与一般的文本处理类库相比,FTFY 使用先进的算法自动检测和纠正错误编码,从而恢复出原始文本。 此外,它还提供了一系列可配置的选项,为不同的情况提供灵活的解决方案。 FTFY 的核心功能是自动识别和修正文本编码错误。 它可以识别一系列复杂的编码问题,这些问题通常是由文本在不同编码之间错误转换造成的。 FTFY 甚至可以修复在多个错误编码转换后混乱的文本,即使文本中包含了多层错误编码: print(fix_text('The Mona Lisa doesn’t have

    46010编辑于 2025-01-18
  • 来自专栏python3

    Python 转换文本编码

    麻烦的是505认得最好的编码方式为utf-8,如果是unicode,当文件大于5M时就容易出现问题。所以许多大的txt文档都要转换成utf-8.

    1.5K50发布于 2020-01-07
  • 来自专栏CSDN博客专家-小蓝枣的博客

    Python 技术篇-如何查看文本用什么类型的编码文本编码查看方法

    文件主要分为二进制文件和文本文件这两种,看你想要查看哪种文件的编码,如果是文本文件的话,open 函数里的就要用 r,二进制文件用的是 rb,别搞错哦! 文本编码查看方法 我们所用的是 chardet 这个库。

    2.8K20发布于 2020-09-25
  • 来自专栏张善友的专栏

    VS 2005 文本编码小技巧

         VS2003使用代码生成器生成的代码加入到工程会很郁闷的,在智能提示中是乱码,在VS2005中有一个选项可以解决这个问题。      今天将一个工程从VS2003转到VS2005,打开中文的

    89960发布于 2018-01-19
  • 来自专栏网站教程

    使用python查看文本编码类型

    去掉['encoding']可以看完整输出,这里我做了筛选,只显示encoding print(chardet.detect(data)['encoding']) 文件主要分为二进制文件和文本文件这两种 ,看你想要查看哪种文件的编码,如果是文本文件的话,open函数里的就要用r,二进制文件用的是rb,别搞错哦!

    1.8K20发布于 2021-07-20
  • 来自专栏python3

    总结----文本文件的编码格式

    常见的编码格式ascii,utf-8 一,ascii 计算机中只有256个ascii字符 一个ascii字符在内存空间中占用一个字节 python2.x默认使用此编码格式 若在2.x中使用中文,需要在python 还需要在中文字符前加上u a1 = u'哈哈,你好' 二,utf-8 计算机中使用1-6个字节来表示一个utf-8字符,涵盖了地球上所有的文件 大多数中文会使用3个字节来表示 utf-8是unicode编码的一种 python3.x默认使用此编码格式,所以使用中文时,不需要再指定utf-8编码格式。

    1.8K10发布于 2020-01-02
  • 来自专栏服务化进程

    java判断文本文件编码格式

    上篇文章需要读取当前java或者配置文件的编码格式,这里主要支持UTF-8、GBK、UTF-16、Unicode等 /** * 判断文件的编码格式 * @param fileName :file * @return 文件编码格式 * @throws Exception */ public static String codeString(File fileName) throws

    9.4K40发布于 2019-08-07
  • 文本编码转换器核心JS实现

    工具网址和截图在线工具网址:https://see-tool.com/encoding-converter工具截图:文本编码转换器功能核心实现解析本文将深入探讨文本编码转换器(TextEncodingConverter 该工具旨在实现普通文本与多种编码格式(如十六进制、二进制、Base64、Unicode等)之间的相互转换。 2.2Base64编码JavaScript原生的btoa和atob函数只能处理ASCII字符。为了支持中文等Unicode字符,我们需要先对字符串进行编码处理。 2.4Punycode转换Punycode是国际化域名(IDN)使用的编码。 Array.from(utf8Bytes)//UTF-8字节序列.map(b=>b.toString(16).toUpperCase().padStart(2,'0')).join('')};}总结本项目的文本编码转换器通过充分利用

    10000编辑于 2026-01-30
  • 文本编码转换器在线工具分享

    文本编码转换器在线工具分享大家好,今天给大家推荐一款我基于Vue.js精心开发的实用在线工具——文本编码转换器。在日常上网或编程开发中,我们经常会遇到各种看不懂的“乱码”或者需要特定格式的字符。 比如网页源代码里的中,或者是Base64编码的加密字符串。为了方便大家快速进行格式转换,我开发了这个全能的文本编码转换工具。 核心功能介绍这款工具目前支持12种常见的编码格式相互转换,堪称“编码界的瑞士军刀”:基础格式:普通文本、二进制(Binary)、八进制、十进制、十六进制(Hex)Web开发:Base64、HTML实体( 十进制/十六进制)、Punycode(域名编码)字符编码:Unicode转义(\uXXXX)、Unicode码点(U+XXXX)、UTF-8Hex无论你是想把一串文字转换成0101的二进制代码装酷,还是解析一段不明所以的 你的文本内容绝对安全隐私,即便是敏感数据也能放心处理。希望这个小工具能成为你数字生活中的得力助手。欢迎收藏使用,如果有任何建议或发现Bug,也欢迎随时反馈给我!

    19700编辑于 2026-01-30
  • 来自专栏zayyo前端

    7 个 JavaScript 快速编码技巧

    function myfunc() { foo(); bar(); return 1;}// 新方式function myFunc() { return foo(), bar(), 1;}7.

    15110编辑于 2023-11-29
  • 来自专栏Albert陈凯

    文本编码转换工具iconv 附批量转换文件编码命令

    网络上下载的好多文本是GBK的编码,在mac电脑上打开是乱码 除了下载有多种编码文本编辑器外,通过终端也可以进行转码 iconv -f GBK -t UTF-8 原文件名 > 随便起个名 文本内容的编码 :用Terminal 里的 iconv 命令批量转换文本编码到UTF8. 新建一个文件夹,在下载目录下创建文件夹 encoding ,然后将要转换的文本拉入这个文件夹。 2. 最常用的几个参数 重要参数是: -f是表示从什么编码,后面跟编码 -t是表示转换到什么编码,后面跟编码 >表示从哪个文件保存为哪个文件 较少用的参数: -c 从输出中忽略无效的字符 -o, --output ISO-IR-126 ISO8859-7 ISO_8859-7 ISO_8859-7:1987 ISO_8859-7:2003 CSISOLATINGREEK HEBREW ISO-8859-8 ISO-IR

    7.3K90发布于 2018-04-04
  • 来自专栏python3

    Python学习笔记7——文本、模块

    参考书籍:《Learning_Python_5th_Edition.pdf》,一本英文书呢,我上传到百度网盘吧,请点击这里,密码是:kym3 文本文件的输入输出 Python具有基本的文本文件读写功能。 文本文件的读写主要通过open()所构建的文件对象来实现。   

    45310发布于 2020-01-19
  • 来自专栏全栈程序员必看

    使用哈夫曼树实现文本编码、解码

    所以在本程序中,需要构造一棵二叉树来存储一大串字符串,对给构造出来的树进行编码,再由已经编好的哈夫曼编码对给定的字符串进行编码,之后对编码的字符串进行解码,最后比较编/解码前后字符串是否相同。 第三,编造哈夫曼编码。根据二叉树,对每个叶节点进行编码;结果用map来储,其中key=叶节点,value=编码。 第四,编码。根据哈夫曼编码,对给定字符进行编码,返回结果字符串。 第五,解码。 6、对编码好的字符串,进行解码 (1)将字符串的编码和map对象(对照表:存放叶节点及其编码)作为实参传入函数。 (2)创建队列,将字符串每个字符存入队列。 + 1); } else { map.put(chararray[i], 1); } } return map; } /** * 使用指定的huffman编码来对文本进行编码 chararray.length; i++) { str += code.get(chararray[i]); } return str; } /** * 使用预先建立好的huffman树, * 对编码后的文本进行解码

    1.6K10编辑于 2022-08-18
  • 来自专栏全栈程序员必看

    一文说清文本编码那些事

    在计算机发展早期,不同国家都推出了自己的字符集和编码方案,互不兼容。中文编码文本在使用日文编码的系统上是无法显示的,这就给国际交往带来障碍。 这时,英雄出现了。 10 开头; 4 至 6 字节编码的情况以此类推; 如图,以 0 开头的字节为 单字节 编码,总共 7 个有效编码位,编码范围为 U+0000 至 U+007F ,刚好对应 ASCII 码所有字符。 以 110 开头的字节为 双字节 编码,总共 11 个有效编码位,最大值是 0x7FF ,因此编码范围为 U+0080 至 U+07FF ;以 1110 开头的字节为 三字节 编码,总共 16 个有效编码位 根据开头不同, UTF-8 流中的字节,可以分为以下几类: 字节最高位 类别 有效位 0 单字节编码 7 10 多字节编码非首字节 110 双字节编码首字节 11 1110 三字节编码首字节 16 11110 文本编码、解码操作则统一在程序的输入、输出层中进行。 假如你正在开发一个 API 服务,数据库数据编码是 GBK ,而用户却使用 UTF-8 编码

    1.2K30发布于 2021-04-07
  • 来自专栏个人博客

    open_clip编码图像和文本 - plus studio

    else 'fp32',device=device, ) tokenize = open_clip.get_tokenizer(clip_model_name) tokenize 是分词器,所有的文本都要先经过分析器才能放入模型进行推理 编码图像 def image_to_features(image: Image.Image) -> torch.Tensor: images = clip_preprocess(image).unsqueeze image_feature = image_to_features(img) /path/to/example.png 替换成自己图片的路径 image_to_features 函数是一个封装过的将图像转成文本的函数 image_feature 就是经过CLIP的编码器得到的特征 编码文本 prompt = "a photo of a cat" text_tokens = tokenize([prompt]).to(

    1.2K10编辑于 2024-02-29
  • 来自专栏媒矿工厂

    TCSVT 2024 | 位置感知的屏幕文本内容编码

    进而,根据文本层特征,设计了一系列针对文本内容编码优化的工具,并与基础编码工具相结合,形成了一个定制的文本编码器。文本编码器以有损压缩方式处理文本层数据,同时对字符位置信息进行无损编码。 图3 方法概述 提出的文本内容编码框架如下图所示,包含了一种位置感知的文本层表达技术及其配套的文本编码工具。 框架运用低复杂度的文本检测与字符分割算法,将原始图像划分为文本层和背景层两部分,并确保文本层中的字符块与 CU 网格精确对齐。在此基础上,针对文本层开发了几项新颖的编码工具:1. 我们在编码阶段分别使用改良后的文本编码器和基准屏幕内容编码器压缩文本层和背景层。此外,字符位置被无损压缩并用作辅助图像重建的边信息。 图7 在这一过程中,设定的准则是:当前进行对齐的字符块向图层的右下方位移,与最近邻的 CU 网格对齐,并且不与已经完成对齐的字符块产生内容重叠。

    98810编辑于 2024-06-25
  • 来自专栏云云众生s

    需避免的7个Java编码错误

    译自 7 Java Mistakes to Conquer,作者 Jonathan Vila 是 Sonar 的开发者倡导者。

    37010编辑于 2024-03-28
  • XSS检测绕过(UTF-7编码绕过)

    叮咚,现场运维来消息了,说项目被检测到有高危漏洞,要求修复,以为就是jar安全漏洞,升级就完事了,就让发过来看看,亚麻袋住了,“XSS检测绕过(UTF-7编码绕过)”,从没见过啊,还是UTF-7。 我电脑上的编辑器都没找到有支持UTF-7编码的,首先想到的,把这些信息丢给DeepSeek帮我分析看看,问Ai怎么防御?结果没有我想要的方案。 然后去网络搜索下吧,看看大家前辈们有没解决过,果然有相关文件,但是都没给出具体解决方案,不过也有所收获,得到了一段UTF-7编码的XSS注入参数(如果Get参数请求,记得对参数URL编码)+ADw-script +AD4-alert('UTF-7 XSS')+ADw-/script+AD4-进入正题,结合项目代码,想到可以用Filter过滤器对参数拦截,那就动手来吧,以项目SpringCloud Zuul为例# xss regexxss: enable: true regexes: # UTF-7编码绕过 - "(?

    28610编辑于 2025-10-18
  • 来自专栏『学习与分享之旅』

    AI编码焕新:用Context7

    最近,一款名为 Context7 MCP 的工具备受瞩目。网络上流传着各种说法,比如它解决了大语言模型的痛点、革新了 AI 编码方式,甚至能让 Cursor 效率提升十倍。 那么,Context7 真有这么神奇吗?它究竟是什么? Context7 是什么? 适用人群(目标群体) 前端/后端/全栈开发者:需要依据“特定版本”文档快速写出可运行代码 数据/平台工程师:频繁对接云服务或第三方 SDK,希望避免版本差异导致的踩坑 AI 编码工具重度用户:Cursor 使用 Context7 的步骤很简单: 像往常一样写下提示。 告诉大语言模型使用 use context7。 获得准确可用的代码答案。 简单说,就是在你的问题末尾加上 use context7。 Context7 网站介绍 除了 MCP 集成,Context7 还提供了一个便捷的网站服务:https://context7.com 网站功能特点 Context7 网站的核心功能是为 LLM 和 AI

    11.2K21编辑于 2025-08-12
  • 来自专栏路过君BLOG from CSDN

    EXTJS7 实现点击拖拉选择文本

    默认情况下,用户无法通过点击拖拉选择界面上的文本 解决方案 Ext.Component组件可以使用userSelectable配置项,设置为‘text’,即可实现此组件中文本的点选 注意:如果设置为true

    66520发布于 2020-12-17
领券