首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据科学熊猫CSV

数据科学熊猫CSV
EN

Stack Overflow用户
提问于 2017-03-09 14:12:05
回答 1查看 141关注 0票数 0

我有一个具有1461属性的csv文件。我想把它加载到一个熊猫数据框中。问题是,许多行没有尾随连续列的值。因此,pandas由于长度不规则而导致解析错误。如何一次性放置前导列的缺失值并将csv文件加载到数据框中?

Edit1我们可以看到数据集csv文件如下

a,b,c,d,e,f,g,h,i""" 1,2,4,5 1,0,9,8,7,6,5,4,7 1,3,5,6,7 6,7,8,8,9,4,5,3,5"""我想要一个像下面这样的熊猫数据框

代码语言:javascript
复制
"""a b c d e f g h i
   1 2 4 5 ? ? ? ? ?
   1 0 9 8 7 6 5 4 7
   1 3 5 6 7 ? ? ? ?
   6 7 8 8 9 4 5 3 5"""

用NaN代替?可以是好的

我们没有足够的逗号不等长的问题。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-03-09 14:17:15

似乎可以在read_csv中通过range对列名使用参数names (如果属性是列):

代码语言:javascript
复制
import pandas as pd
from pandas.compat import StringIO

temp=u"""
a,v
c,v,f,r
b,g
y"""
#after testing replace 'StringIO(temp)' to 'filename.csv'
#in real data change 4 to 1461
names = range(4)
df = pd.read_csv(StringIO(temp), names=names)
print (df)
   0    1    2    3
0  a    v  NaN  NaN
1  c    v    f    r
2  b    g  NaN  NaN
3  y  NaN  NaN  NaN

编辑:

代码语言:javascript
复制
temp=u"""a,b,c,d,e,f,g,h,i
1,2,4,5
1,0,9,8,7,6,5,4,7
1,3,5,6,7
6,7,8,8,9,4,5,3,5"""
#after testing replace 'StringIO(temp)' to 'filename.csv'
df = pd.read_csv(StringIO(temp))
print (df)
   a  b  c  d    e    f    g    h    i
0  1  2  4  5  NaN  NaN  NaN  NaN  NaN
1  1  0  9  8  7.0  6.0  5.0  4.0  7.0
2  1  3  5  6  7.0  NaN  NaN  NaN  NaN
3  6  7  8  8  9.0  4.0  5.0  3.0  5.0
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42688022

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档