通过删除字节码中令人讨厌的字符来清理推文数据集(例如:\xf0\x9f\x99\x82)以下是不使用函数的代码:
b = data_tweet['Tweet']
b.head()
for i in b:
x = i.encode('utf=8')
y = x.decode('unicode-escape')
print(y) 啊,真灵。这个字符变成了:™Ÿ™“,™ŸŸ™°,等等。
但是当我使用函数实现它的时候,为了将它转换成csv文件。它失败了。字节字符保持不变(例如:\xf0\x9f\x99\x82)代码如下:
def convert(text):
for i in text:
x = i.encode('utf=8')
y = x.decode('unicode-escape')
return text
convert(data_tweet['Tweet']) 有人知道为什么吗?
发布于 2021-05-03 12:17:18
问题是您实际上并没有将结果赋值给data_tweet['Tweet']。您可以在系列上使用apply()。
def convert(text):
x = text.encode('utf=8')
y = x.decode('unicode-escape')
return y
data_tweet['Tweet'] = data_tweet['Tweet'].apply(convert)或
data_tweet['Tweet'] = data_tweet['Tweet'].apply(lambda text: text.encode('utf=8').decode('unicode-escape'))https://stackoverflow.com/questions/67363391
复制相似问题