首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >清洁熊猫数据栏中的单栏

清洁熊猫数据栏中的单栏
EN

Stack Overflow用户
提问于 2019-02-22 14:07:08
回答 2查看 2.6K关注 0票数 2

导入CSV作为熊猫数据,并删除所有完全空的列:

代码语言:javascript
复制
import pandas as pd 

df1 = pd.read_csv("name.csv") 
df1 = df1.dropna(axis=1,how='all')

唉,有一列是这样的:

代码语言:javascript
复制
'Background\r\n * find it: IDE-3: Some Name\r\n * Dokument: SomeName.pptx\r\n * Field: TEG-33\r\n  * happy: Done\r\n\r\nh3. Definition\r\n\r\n\xa0tbd.\r\nh3. exists\r\n\r\ncsv\r\nh3. Source\r\n\r\ncsv?\r\n\r\npotentiell?\r\n\r\ntbd\r\nh3. task\r\n\r\ntbd\r\n\r\n\xa0'

Question1:我想移除所有的\r\n和\r\n\r\ n和\r\n\r\n\xa0 0等等。有人能帮上忙吗?我找不到一个清晰的模式。

Question2:如何防止所有这些不同形式的\r\n\r(见问题2)在将CSV导入到熊猫数据框架中时被编写?

在清除数据帧中所述列的所有行后,最终结果应该如下

(Python3,Anaconda3发行版,在Windows 10上)

EN

回答 2

Stack Overflow用户

发布于 2019-02-22 16:10:23

关于问题1:

代码语言:javascript
复制
(df1['Column 3']
.str.replace('\r','')
.str.replace('\n','')
.str.replace('\xa0', ''))

对于问题2:当数据进入csv时,您可以清理它--但是如果不知道数据来自哪里,就很难说了!

票数 1
EN

Stack Overflow用户

发布于 2019-02-22 16:17:28

问题1

此正则表达式将实现您想要的结果:

代码语言:javascript
复制
(\r\n)+(\r)*(\xa0)*

解释:

代码语言:javascript
复制
(\r\n)+  # One or more copies of '\r\n'
(\r)*    # Any extra appended    '\r'
(\xa0)*  # Any final appended    '\xao'

不过,请注意,在您的示例中,没有表单\r\n...\r的字符串,即带有最后附加的\r

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54828852

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档