首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏人人都是架构师

    Ftfy:文本编码修复

    FTFY 露个脸 FTFY(Fixes Text For You,为你修复文本)是一个精心设计的Python库,它专门解决文本中的编码问题,如字符混乱、错误编码转换等。 与一般的文本处理类库相比,FTFY 使用先进的算法自动检测和纠正错误编码,从而恢复出原始文本。 此外,它还提供了一系列可配置的选项,为不同的情况提供灵活的解决方案。 FTFY 的核心功能是自动识别和修正文本编码错误。 它可以识别一系列复杂的编码问题,这些问题通常是由文本在不同编码之间错误转换造成的。 FTFY 甚至可以修复在多个错误编码转换后混乱的文本,即使文本中包含了多层错误编码: print(fix_text('The Mona Lisa doesn’t have

    46010编辑于 2025-01-18
  • 来自专栏python3

    Python 转换文本编码

    麻烦的是505认得最好的编码方式为utf-8,如果是unicode,当文件大于5M时就容易出现问题。所以许多大的txt文档都要转换成utf-8.

    1.5K50发布于 2020-01-07
  • 来自专栏CSDN博客专家-小蓝枣的博客

    Python 技术篇-如何查看文本用什么类型的编码文本编码查看方法

    文件主要分为二进制文件和文本文件这两种,看你想要查看哪种文件的编码,如果是文本文件的话,open 函数里的就要用 r,二进制文件用的是 rb,别搞错哦! 文本编码查看方法 我们所用的是 chardet 这个库。

    2.8K20发布于 2020-09-25
  • 来自专栏张善友的专栏

    VS 2005 文本编码小技巧

         VS2003使用代码生成器生成的代码加入到工程会很郁闷的,在智能提示中是乱码,在VS2005中有一个选项可以解决这个问题。      今天将一个工程从VS2003转到VS2005,打开中文的

    89960发布于 2018-01-19
  • 来自专栏网站教程

    使用python查看文本编码类型

    去掉['encoding']可以看完整输出,这里我做了筛选,只显示encoding print(chardet.detect(data)['encoding']) 文件主要分为二进制文件和文本文件这两种 ,看你想要查看哪种文件的编码,如果是文本文件的话,open函数里的就要用r,二进制文件用的是rb,别搞错哦!

    1.8K20发布于 2021-07-20
  • 来自专栏黯羽轻扬

    文本_bash笔记4

    grep 用于文本搜索,匹配文件内容,语法格式为:grep pattern filename,例如: # 找出所有含有for的行 grep 'for' test.sh # 对多个文件进行搜索 grep "想做个好人" | cut -b 2-4 # -n选项不分割多字节字符,得到`想` echo "想做个好人" | cut -n -b 2-4 sed stream editor,非交互式的编辑器,常用的文本处理工具 ,最常用的功能是文本替换: # 删除行开头的空白字符 echo $' \t 我想左对齐' | sed $'s/^[[:space:]]*\t*//g' 另一个常用功能是文件原地替换(替换并把结果写入原文件 '{print 1"-"2"-"3}' 内置变量 awk里有一些特殊的内置变量: NR:number of records,当前行号 NF:number of fields,当前行字段数 $0:当前行文本内容 $123…:当前行第n个字段的文本内容 所以有更简单的统计行数的方式: echo $'1 2\n3 4' | awk 'END{print NR}' 每读一行更新NR,执行到END块时就是总行数 注意

    1.1K30发布于 2019-06-12
  • 来自专栏图形学与OpenGL

    实验4 编码裁剪算法

    (2) 利用VC+OpenGL实现直线的编码裁剪算法,在屏幕上用一个封闭矩形裁剪任意一条直线。 (3) 调试、编译、修改程序。 (4) 尝试实现梁友栋裁剪算法。 3.实验原理: 在编码裁剪算法中,为了快速判断一条直线段与矩形窗口的位置关系,采用了如图A.4所示的空间划分和编码方案。 图A.4裁剪编码 4.实验代码: #include <GL/glut.h> #include <stdio.h> #include <stdlib.h> #define LEFT_EDGE 1 #define RIGHT_EDGE 2 #define BOTTOM_EDGE 4 #define TOP_EDGE 8 void LineGL(int x0,int y0,int x1 ,y0,x1,y1; int CompCode(int x,int y,Rectangle rect) { int code=0x00; if(y<rect.ymin) code=code|4;

    1.4K20发布于 2020-10-27
  • 来自专栏图形学与OpenGL

    实验4 编码裁剪算法

    2.实验内容: (1) 理解直线裁剪的原理(Cohen-Surtherland算法、梁友栋算法) (2) 利用VC+OpenGL实现直线的编码裁剪算法,在屏幕上用一个封闭矩形裁剪任意一条直线。 (4) 尝试实现梁友栋裁剪算法。 3.实验原理: 编码裁剪算法中,为了快速判断一条直线段与矩形窗口的位置关系,采用了如图A.4所示的空间划分和编码方案。 ? 图A.4 裁剪编码 裁剪一条线段时,先求出两端点所在的区号code1和code2,若code1 = 0且code2 = 0,则说明线段的两个端点均在窗口内,那么整条线段必在窗口内,应取之;若code1和 2 #define BOTTOM_EDGE 4 #define TOP_EDGE 8 void LineGL(int x0,int y0,int x1,int y1) { glBegin (GL_LINES int x0,y0,x1,y1; int CompCode(int x,int y,Rectangle rect) { int code=0x00; if(y<rect.ymin) code=code|4;

    1.1K10发布于 2018-10-09
  • 来自专栏python3

    总结----文本文件的编码格式

    常见的编码格式ascii,utf-8 一,ascii 计算机中只有256个ascii字符 一个ascii字符在内存空间中占用一个字节 python2.x默认使用此编码格式 若在2.x中使用中文,需要在python 还需要在中文字符前加上u a1 = u'哈哈,你好' 二,utf-8 计算机中使用1-6个字节来表示一个utf-8字符,涵盖了地球上所有的文件 大多数中文会使用3个字节来表示 utf-8是unicode编码的一种 python3.x默认使用此编码格式,所以使用中文时,不需要再指定utf-8编码格式。

    1.8K10发布于 2020-01-02
  • 来自专栏服务化进程

    java判断文本文件编码格式

    上篇文章需要读取当前java或者配置文件的编码格式,这里主要支持UTF-8、GBK、UTF-16、Unicode等 /** * 判断文件的编码格式 * @param fileName :file * @return 文件编码格式 * @throws Exception */ public static String codeString(File fileName) throws

    9.4K40发布于 2019-08-07
  • 文本编码转换器核心JS实现

    工具网址和截图在线工具网址:https://see-tool.com/encoding-converter工具截图:文本编码转换器功能核心实现解析本文将深入探讨文本编码转换器(TextEncodingConverter 该工具旨在实现普通文本与多种编码格式(如十六进制、二进制、Base64、Unicode等)之间的相互转换。 2.2Base64编码JavaScript原生的btoa和atob函数只能处理ASCII字符。为了支持中文等Unicode字符,我们需要先对字符串进行编码处理。 2.4Punycode转换Punycode是国际化域名(IDN)使用的编码。 Array.from(utf8Bytes)//UTF-8字节序列.map(b=>b.toString(16).toUpperCase().padStart(2,'0')).join('')};}总结本项目的文本编码转换器通过充分利用

    10000编辑于 2026-01-30
  • 文本编码转换器在线工具分享

    文本编码转换器在线工具分享大家好,今天给大家推荐一款我基于Vue.js精心开发的实用在线工具——文本编码转换器。在日常上网或编程开发中,我们经常会遇到各种看不懂的“乱码”或者需要特定格式的字符。 比如网页源代码里的&#x4E2D;,或者是Base64编码的加密字符串。为了方便大家快速进行格式转换,我开发了这个全能的文本编码转换工具。 核心功能介绍这款工具目前支持12种常见的编码格式相互转换,堪称“编码界的瑞士军刀”:基础格式:普通文本、二进制(Binary)、八进制、十进制、十六进制(Hex)Web开发:Base64、HTML实体( 十进制/十六进制)、Punycode(域名编码)字符编码:Unicode转义(\uXXXX)、Unicode码点(U+XXXX)、UTF-8Hex无论你是想把一串文字转换成0101的二进制代码装酷,还是解析一段不明所以的 你的文本内容绝对安全隐私,即便是敏感数据也能放心处理。希望这个小工具能成为你数字生活中的得力助手。欢迎收藏使用,如果有任何建议或发现Bug,也欢迎随时反馈给我!

    19700编辑于 2026-01-30
  • 来自专栏Albert陈凯

    文本编码转换工具iconv 附批量转换文件编码命令

    网络上下载的好多文本是GBK的编码,在mac电脑上打开是乱码 除了下载有多种编码文本编辑器外,通过终端也可以进行转码 iconv -f GBK -t UTF-8 原文件名 > 随便起个名 文本内容的编码 :用Terminal 里的 iconv 命令批量转换文本编码到UTF8. 新建一个文件夹,在下载目录下创建文件夹 encoding ,然后将要转换的文本拉入这个文件夹。 2. 最常用的几个参数 重要参数是: -f是表示从什么编码,后面跟编码 -t是表示转换到什么编码,后面跟编码 >表示从哪个文件保存为哪个文件 较少用的参数: -c 从输出中忽略无效的字符 -o, --output ISO-IR-110 ISO8859-4 ISO_8859-4 ISO_8859-4:1988 L4 LATIN4 CSISOLATIN4 CYRILLIC ISO-8859-5 ISO-IR-144

    7.3K90发布于 2018-04-04
  • 来自专栏学习内容

    utf8编码和utf8mb4编码(其它编码简介)

    UTF-8编码中,一个英文字符占用一个字节的存储空间,一个中文(含繁体)占用三个字节的存储空间。 UTF-8mb4支持4个字节的存储,如emoji表情。 (3)、utf8mb4专门用来兼容四字节的unicode。utf8mb4是utf8的超集,除了将编码改为utf8mb4外不需要做其他转换。 三、为何要增加utf8mb4编码 MySQL在5.5.3版本以后增加了utf8mb4编码,其中mb4是most bytes 4的含义,用来兼容四个字节的Unicode(万国码)。 原来mysql支持的 utf8 编码最大字符长度为 3 字节,如果遇到 4 字节的宽字符就会插入异常了。 也就是说,任何不在基本多文本平面的 Unicode字符,都无法使用 Mysql 的 utf8 字符集存储。

    4.1K20编辑于 2023-08-09
  • 来自专栏jeremy的技术点滴

    javacv编码mp4视频

    目前在做的java项目里有一个需求,已经将用户在进行一个业务操作的操作行为记录下来了,形成了这些操作行为的指令文件,然后需要将这些指令文件编码为mp4视频。 上网搜索过后,找到两个替代方案jcodec和javacv,对比编码性能后,最终选择了javacv,纯java方案相对于jni方案性能差得不是一星半点啊。 的encodeFrame方法的第二个参数timestamp并没有用到,但在项目中进行mp4编码时,实际上是对每一帧指定的时间戳的,于是修改encodeFrame方法 @Override public void 又过了好几天,在正式环境上运行着,又出问题,进行mp4编码的Java进程crash了。crash日志时仅报了一下跟jni调用相关的错。 = height + 1; break; } } Mp4Encoder encoder = new JavaCVMp4Encoder(); encoder.make("/tmp/test.mp4")

    10K92发布于 2018-05-10
  • 来自专栏全栈程序员必看

    使用哈夫曼树实现文本编码、解码

    4)最后,链表里只剩根节点结束循环,返回根节点。 4、计算哈夫曼编码 (1)将返回的根节点作为实参传入函数。 (2)创建队列,将根节点存放在队列中;创建map,key=叶节点,value=编码。 (4)判定该节点是否为叶子节点。如果是将叶节点的数据和编码存入map;否则,判断是否有左右孩子,左孩子编码+0,右孩子编码+1。将左右孩子节点放入队列。 四、测试数据 1、统计字符出现频率 2、构造二叉树 3、每个字符对应的哈夫曼编码 4、对给定字符串进行编码 5、对编码的字符串进行解码 五、遇到的问题与解决方法 问题:按照节点的权重从小到大排序 + 1); } else { map.put(chararray[i], 1); } } return map; } /** * 使用指定的huffman编码来对文本进行编码 chararray.length; i++) { str += code.get(chararray[i]); } return str; } /** * 使用预先建立好的huffman树, * 对编码后的文本进行解码

    1.6K10编辑于 2022-08-18
  • 来自专栏CaiRui

    Shell-4-让文本

    txt 使用正则表达式必须使用egrep (2)要打印除某行之外所有行 [root@cai tmp]# grep -v 3 1.txt this is a test2 11 44 55 55 (3)统计文本文本中包含匹配字符串的行数 [root@cai tmp]# grep -c 3 1.txt 1 (4)打印包含匹配字符串的行数 [root@cai tmp]# grep 3 -n 1.txt 4:33 (5)搜索多个文件并找出匹配文本位于哪个文件中 6 7 8 要打印匹配某个结果之前的3行,可以使用-B选项 [root@cai tmp]# seq 10|grep 5 -B 3 2 3 4 5 要打印匹配某个结果之前以及之后的3行,使用-C选项 [ root@cai tmp]# seq 10|grep 5 -C 3 2 3 4 5 6 7 8 3.用cut按列切分文本 cut -f 2,3 filename 4.sed (1)sed可以替换给定文本中的字符串 (1)[root@cai tmp]# seq 100|awk 'NR==4,NR==8' (2)4awk ‘NR==M,NR==N’ filename 5 6 7 8

    98790发布于 2018-01-17
  • 来自专栏全栈程序员必看

    一文说清文本编码那些事

    因此,对中文编码文本进行解码,指定 GB18030 最为健壮: >>> raw = b'\xfd\x88\xb5\xc4\xb4\xab\xc8\xcb' >>> raw.decode('gb18030 在计算机发展早期,不同国家都推出了自己的字符集和编码方案,互不兼容。中文编码文本在使用日文编码的系统上是无法显示的,这就给国际交往带来障碍。 这时,英雄出现了。 UTF-8 为了兼容 ASCII 并优化文本空间占用,我们需要一种变长字节编码方案,这就是著名的 UTF-8 。 10 开头; 4 至 6 字节编码的情况以此类推; 如图,以 0 开头的字节为 单字节 编码,总共 7 个有效编码位,编码范围为 U+0000 至 U+007F ,刚好对应 ASCII 码所有字符。 文本编码、解码操作则统一在程序的输入、输出层中进行。 假如你正在开发一个 API 服务,数据库数据编码是 GBK ,而用户却使用 UTF-8 编码

    1.2K30发布于 2021-04-07
  • 来自专栏个人博客

    open_clip编码图像和文本 - plus studio

    else 'fp32',device=device, ) tokenize = open_clip.get_tokenizer(clip_model_name) tokenize 是分词器,所有的文本都要先经过分析器才能放入模型进行推理 编码图像 def image_to_features(image: Image.Image) -> torch.Tensor: images = clip_preprocess(image).unsqueeze image_feature = image_to_features(img) /path/to/example.png 替换成自己图片的路径 image_to_features 函数是一个封装过的将图像转成文本的函数 image_feature 就是经过CLIP的编码器得到的特征 编码文本 prompt = "a photo of a cat" text_tokens = tokenize([prompt]).to(

    1.2K10编辑于 2024-02-29
  • 来自专栏初见Linux

    4.文本样式-CSS基础

    一、文本样式 字体样式:注重个体,针对的是文字本身效果。 文本样式:注重整体,针对的是整个段落的排版效果。 在CSS中,使用font和text两个前缀来区分这两类样式。 行高 letter-spacing、word-spacing 字母间距、词间距 二、text-indent(首行缩进) p元素首行不会缩进,因此在HTML中需要使用4个 来实现首行缩进2个字符的空格 四、text-decoration(文本修饰) 在CSS中,可以使用text-decoration属性来定义文本的修饰效果(下划线、中划线、顶划线)。 /*行高*/ } </style> </head> <body>

    蝶恋花·庭院深深深几许

    <h4> 宋·欧阳修</h4>

    庭院深深深几许,杨柳堆烟,帘幕无重数。

    1.6K20发布于 2020-10-28
领券