我的数据在文本文件中,数据格式如下所示。数字是类,课文是我的特色。第一行,即,5485是总行数。我想将类和特性分开,忽略第一行,即5485。怎么用熊猫来做呢?请帮帮我。
5485
1冠军产品公司批准股票分割冠军产品公司( inc .)表示,其董事会批准两人分拆一股普通股。
2计算机终端系统cpml完成销售计算机终端系统公司表示已完成其普通股和
1 cobanco公司cbco年净shr cts对dlrs净资产
发布于 2018-06-07 08:19:06
我认为需要参数为read_csv的sep='|'用于一列Dataframe (需要分隔符值,它不在数据中),而skiprows则需要省略第一行:
df = pd.read_csv(file, names=['data'], sep='|', skiprows=1)
print (df)
data
0 1 champion products ch approves stock split ch...
1 2 computer terminal systems cpml completes sal...
2 1 cobanco inc cbco year net shr cts vs dlrs ne...然后,将split列按第一个空格转到两者之间:
df[['class','features']] = df.pop('data').str.split(n=1, expand=True)
#convert column to numeric
df['class'] = df['class'].astype(int)
print (df)
class features
0 1 champion products ch approves stock split cham...
1 2 computer terminal systems cpml completes sale ...
2 1 cobanco inc cbco year net shr cts vs dlrs net ...发布于 2018-06-07 08:21:45
import pandas as pd
train = pd.read_csv("dataset.csv", header=0,delimiter=",", quoting=1)
num_reviews = train["columnTitleName"].size
for i in xrange(0, num_reviews):
dis = train["columnTitleName"][i]
print dishttps://stackoverflow.com/questions/50736163
复制相似问题