首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >合并具有不同字符编码的文本文件

合并具有不同字符编码的文本文件
EN

Stack Overflow用户
提问于 2016-01-19 15:26:33
回答 1查看 1.2K关注 0票数 0

我正在尝试将目录中的文本文件的内容合并到一个文本文件中。

有些文本文件采用ANSI编码,有些采用UTF-8编码,有些采用带有BOM和其他字符编码的UTF-8编码。

我尝试使用type和copy命令进行合并,但结果文件可能包含奇怪的字符。例如,"ö“就变成了”??“。其他的欧洲字母/重音字母也是乱码。此外,还有一些以“ai»»?”开头的行,经过一些调查后,它实际上是看不见的BOM字符。

我怎样才能将这些文本文件合并成一个保留其可读形式的文件呢?我对Windows CMD之外的建议持开放态度。

EN

回答 1

Stack Overflow用户

发布于 2016-01-19 17:13:08

你不能盲目地合并文件。如果您知道哪些文件是哪些编码,那么您可以在合并之前使用工具将每个文件重新编码为一个通用的表示形式,如UTF-8。例如,在Python 3.x中,这将把四个不同编码的文件连接成一个通用的UTF-8编码文件(未测试):

代码语言:javascript
复制
#!python3

files = [('file1.txt','cp1252'),
         ('file2.txt','utf8'),
         ('file3.txt','utf-8-sig'),
         ('file4.txt','chinese')]

with open('output.txt','w',encoding='utf8') as out:
    for filename,encoding in files:
        with open(filename,encoding=encoding) as f:
            out.write(f.read())
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34870820

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档