我的大学项目是用Java编写的,从Twitter上获取推文并对其进行分析。
在第一阶段,我使用tweet;我必须在Windows机器上这样做,在我把它放到我的Linux服务器程序上之后,我用它来分析带有用户反馈系统的tweet。
当我在Linux机器上打开txt文件时,它会问我是否想在UTF-8中进行转换,然后单击“是”。但是,由于这种操作,有些特殊字符的格式不正确。如果我试图以原始格式(可能是CP1252)重新转换,它会返回一个由特殊字符引起的错误。
我知道不可能重新转换这些字符,因为任何特殊字符都是它们可能是的字符的总和,但是我可以使用一种文本预测字符来重写该字符?。
例如,如果我有because,而e是一个特殊的字符,我看到这个词类似于这个becaus?,如果我删除了?字符,我如何重新放置e?我试过使用Word,但是txt太大了,因此这个问题有大量的单词,而对于Word,您必须手动检查每个单词。
发布于 2017-05-10 01:25:10
您应该使用dos2unix将文件更改为linux格式。
https://stackoverflow.com/questions/43882087
复制相似问题