首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用熊猫阅读文本数据?

如何使用熊猫阅读文本数据?
EN

Stack Overflow用户
提问于 2018-06-07 08:15:46
回答 2查看 43关注 0票数 0

我的数据在文本文件中,数据格式如下所示。数字是类,课文是我的特色。第一行,即,5485是总行数。我想将类和特性分开,忽略第一行,即5485。怎么用熊猫来做呢?请帮帮我。

5485

1冠军产品公司批准股票分割冠军产品公司( inc .)表示,其董事会批准两人分拆一股普通股。

2计算机终端系统cpml完成销售计算机终端系统公司表示已完成其普通股和

1 cobanco公司cbco年净shr cts对dlrs净资产

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-06-07 08:19:06

我认为需要参数为read_csvsep='|'用于一列Dataframe (需要分隔符值,它不在数据中),而skiprows则需要省略第一行:

代码语言:javascript
复制
df = pd.read_csv(file, names=['data'], sep='|', skiprows=1)
print (df)
                                                data
0  1 champion products ch approves stock split ch...
1  2 computer terminal systems cpml completes sal...
2  1 cobanco inc cbco year net shr cts vs dlrs ne...

然后,将split列按第一个空格转到两者之间:

代码语言:javascript
复制
df[['class','features']] = df.pop('data').str.split(n=1, expand=True)
#convert column to numeric
df['class'] = df['class'].astype(int)
print (df)
  class                                           features
0     1  champion products ch approves stock split cham...
1     2  computer terminal systems cpml completes sale ...
2     1  cobanco inc cbco year net shr cts vs dlrs net ...
票数 0
EN

Stack Overflow用户

发布于 2018-06-07 08:21:45

代码语言:javascript
复制
import pandas as pd
train = pd.read_csv("dataset.csv", header=0,delimiter=",", quoting=1)
num_reviews = train["columnTitleName"].size
for i in xrange(0, num_reviews): 
    dis =  train["columnTitleName"][i]
    print dis
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50736163

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档