导入CSV作为熊猫数据,并删除所有完全空的列:
import pandas as pd
df1 = pd.read_csv("name.csv")
df1 = df1.dropna(axis=1,how='all')唉,有一列是这样的:
'Background\r\n * find it: IDE-3: Some Name\r\n * Dokument: SomeName.pptx\r\n * Field: TEG-33\r\n * happy: Done\r\n\r\nh3. Definition\r\n\r\n\xa0tbd.\r\nh3. exists\r\n\r\ncsv\r\nh3. Source\r\n\r\ncsv?\r\n\r\npotentiell?\r\n\r\ntbd\r\nh3. task\r\n\r\ntbd\r\n\r\n\xa0'Question1:我想移除所有的\r\n和\r\n\r\ n和\r\n\r\n\xa0 0等等。有人能帮上忙吗?我找不到一个清晰的模式。
Question2:如何防止所有这些不同形式的\r\n\r(见问题2)在将CSV导入到熊猫数据框架中时被编写?
在清除数据帧中所述列的所有行后,最终结果应该如下

(Python3,Anaconda3发行版,在Windows 10上)
发布于 2019-02-22 16:10:23
关于问题1:
(df1['Column 3']
.str.replace('\r','')
.str.replace('\n','')
.str.replace('\xa0', ''))对于问题2:当数据进入csv时,您可以清理它--但是如果不知道数据来自哪里,就很难说了!
发布于 2019-02-22 16:17:28
问题1
此正则表达式将实现您想要的结果:
(\r\n)+(\r)*(\xa0)*解释:
(\r\n)+ # One or more copies of '\r\n'
(\r)* # Any extra appended '\r'
(\xa0)* # Any final appended '\xao'不过,请注意,在您的示例中,没有表单\r\n...\r的字符串,即带有最后附加的\r。
https://stackoverflow.com/questions/54828852
复制相似问题