与熊猫合作,每次出现“特殊”字符(比如:é),都会引发编码错误。这是我的密码:
import pandas as pd
df = pd.read_csv(r'movies analysis\movie_metadata.csv',encoding='utf-8')
print(df.loc[df['title_year'] == 2015])这就是我所犯的错误:
File "D:\ANACONDA\lib\encodings\cp1255.py", line 19, in encode
return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\xe9' in position 645: character maps to <undefined>在这个问题上有很多线索,但没有一个能为我提供有效的解决方案。
发布于 2018-11-16 10:16:48
我最后所做的就是把所有的角色都“正常化”为ascii。虽然不太理想,但对我来说很管用:
import unicodedata
unicodedata.normalize('NFD', Data_U_Want_To_Normalize).encode('ascii', 'ignore')因此,在像é这样的字母的情况下,它会被转化为e。
发布于 2021-07-29 09:59:02
将export LANG=zh_CN.utf8或export LANG=us_EN添加到bashrc或shell脚本中,我的脚本是:
import pandas as pd
pd.read_excel(f)
# there are chinese in my filehttps://stackoverflow.com/questions/53307384
复制相似问题