我这里有一个产品,有弱点,在自动检测编码的srt字幕文件相比,竞争对手。我可以自动检测smi文件的编码,因为它的头中有语言信息。但是对于srt,我不能这样做。如何将此自动检测应用于srt文件?任何好的参考资料,例如关于算法,我可以学习作为我的第一步,将不胜感激。仅供参考,我的产品应该支持西欧,中欧,西里尔字母,希腊语,土耳其语,希伯来语,阿拉伯语,波罗的海语,韩语,中文,中文,越南,泰语。
发布于 2014-10-08 15:16:37
有很多工具可以检测文本文件(例如srt文件)的字符集。例如,在Linux计算机的命令行中,您可以使用chardet:
chardet subtile_file_name.srt此实用程序应事先与pip (Python安装程序)一起安装。在Ubuntu中:
sudo apt-get install python-pip
pip install chardet如果你需要在你的应用程序中集成一个检测器,也有开放的库来完成这项工作。例如,在我用Java语言实现的工具DualSub中,我使用了juniversalchardet。
https://stackoverflow.com/questions/22294109
复制相似问题