因此,我所面对的问题如下:
我有一个;分隔的csv,它的;包含在引号中,这会破坏数据。
就像abide;acdet;"adds;dsss";acde一样
;在"adds;dsss"中将" dsss"移动到下一行,并破坏了我正在编写的ETL模块的结果。我的ETL从互联网上获取这样一个csv,然后对它进行转换(首先在Pandas数据帧中加载它,然后进行预处理,然后保存它),然后将它加载到sql server中。但是损坏的文件正在破坏sql服务器架构。
是否有任何解决方案,我可以使用与Pandas数据框架,使我可以解决这个问题,要么在读(pd.read_csv)或写入(pd.to_csv)(或两者)部分使用Pandas?
发布于 2018-04-10 00:22:21
您可能需要告诉读者一些可能引用的字段:
pd.read_csv(your_data, sep=';', quotechar='"')发布于 2018-04-09 13:04:33
让我们试试:
from io import StringIO
import pandas as pd
txt = StringIO("""abide;acdet;"adds;dsss";acde""")
df = pd.read_csv(txt,sep=';',header=None)
print(df)输出数据:
0 1 2 3
0 abide acdet adds;dsss acde发布于 2018-04-09 12:50:46
sep参数pd.read_csv允许您指定在CSV文件中使用哪个字符作为分隔符。它的默认值是,。将其更改为;是否解决了您的问题?
https://stackoverflow.com/questions/49733229
复制相似问题