首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >无法在pandas中应用unicode转义

无法在pandas中应用unicode转义
EN

Stack Overflow用户
提问于 2021-05-03 12:13:56
回答 1查看 51关注 0票数 0

通过删除字节码中令人讨厌的字符来清理推文数据集(例如:\xf0\x9f\x99\x82)以下是不使用函数的代码:

代码语言:javascript
复制
b = data_tweet['Tweet']
b.head()

for i in b:
    x = i.encode('utf=8')
    y = x.decode('unicode-escape')
    print(y) 

啊,真灵。这个字符变成了:™Ÿ™“,™ŸŸ™°,等等。

但是当我使用函数实现它的时候,为了将它转换成csv文件。它失败了。字节字符保持不变(例如:\xf0\x9f\x99\x82)代码如下:

代码语言:javascript
复制
def convert(text):
    for i in text:
        x = i.encode('utf=8')
        y = x.decode('unicode-escape')
        
    return text

convert(data_tweet['Tweet']) 

有人知道为什么吗?

EN

回答 1

Stack Overflow用户

发布于 2021-05-03 12:17:18

问题是您实际上并没有将结果赋值给data_tweet['Tweet']。您可以在系列上使用apply()

代码语言:javascript
复制
def convert(text):
    x = text.encode('utf=8')
    y = x.decode('unicode-escape')
        
    return y

data_tweet['Tweet'] = data_tweet['Tweet'].apply(convert)

代码语言:javascript
复制
data_tweet['Tweet'] = data_tweet['Tweet'].apply(lambda text: text.encode('utf=8').decode('unicode-escape'))
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67363391

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档