文章/答案/技术大牛

发布

社区首页 >问答首页 >无法在pandas中应用unicode转义

问无法在pandas中应用unicode转义
EN

Stack Overflow用户

提问于 2021-05-03 12:13:56

回答 1查看 51关注 0票数 0

通过删除字节码中令人讨厌的字符来清理推文数据集(例如：\xf0\x9f\x99\x82)以下是不使用函数的代码：

b = data_tweet['Tweet']
b.head()

for i in b:
    x = i.encode('utf=8')
    y = x.decode('unicode-escape')
    print(y)

啊，真灵。这个字符变成了：™Ÿ™“，™ŸŸ™°，等等。

但是当我使用函数实现它的时候，为了将它转换成csv文件。它失败了。字节字符保持不变(例如：\xf0\x9f\x99\x82)代码如下：

def convert(text):
    for i in text:
        x = i.encode('utf=8')
        y = x.decode('unicode-escape')
        
    return text

convert(data_tweet['Tweet'])

有人知道为什么吗？

python-3.x

pandas

unicode-escapes

回答 1

Stack Overflow用户

发布于 2021-05-03 12:17:18

问题是您实际上并没有将结果赋值给data_tweet['Tweet']。您可以在系列上使用apply()。

def convert(text):
    x = text.encode('utf=8')
    y = x.decode('unicode-escape')
        
    return y

data_tweet['Tweet'] = data_tweet['Tweet'].apply(convert)

或

data_tweet['Tweet'] = data_tweet['Tweet'].apply(lambda text: text.encode('utf=8').decode('unicode-escape'))

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67363391

复制

相似问题

问无法在pandas中应用unicode转义
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问无法在pandas中应用unicode转义EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问无法在pandas中应用unicode转义
EN