首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用分隔符从列表中提取数据

使用分隔符从列表中提取数据
EN

Stack Overflow用户
提问于 2019-03-15 12:27:04
回答 3查看 1.2K关注 0票数 3

我有一组10条python列表,格式如下:

代码语言:javascript
复制
[ABC*DEF*123>~123*999*HHH]
[PQR*RST*567>~AWS*999*POI]
[XYZ*TGT*234>~2352*245*HFT]
[STU*DEF*789>~654*345*QQQ]

我试图从上面的列表中提取数据,这样最后的输出就是Dataframe,期望下面的输出

代码语言:javascript
复制
123,999,HHH
AWS,999,POI
2352,245,HFT
654,345,QQQ

以下是我迄今所做的工作:

代码语言:javascript
复制
allFiles = Path where all the txt files are stored
list_ = []
for file_ in allFiles:
    with open(file_) as fp:
        lines1 = fp.read().split('\n')
        b = [i.split('~', 1)[1] for i in lines1]
        print(b)

以上所列的清单如下:

代码语言:javascript
复制
[123*999*HHH]
[AWS*999*POI]
[2352*245*HFT]
[654*345*QQQ]

我无法使用分隔符(*)提取上述数据,并将其拆分为不同的列,并将其保存到Dataframe中。

EN

回答 3

Stack Overflow用户

发布于 2019-03-15 12:34:52

因为,您已经有了列表,所以一个简单的函数可以在分隔符(*)上拆分。

代码语言:javascript
复制
l1 = ["123*999*HHH"]
l2 = ["AWS*999*POI"]
l3 = ["2352*245*HFT"]
l4 = ["654*345*QQQ"]

def split_delim(l):
    for i in l:
        l = i.split('*')
    return l

l1 = split_delim(l1)
l2 = split_delim(l2)
l3 = split_delim(l3)
df = pd.DataFrame({'l1':l1, 'l2':l2, 'l3':l3})
df
    l1      l2      l3
0   123     AWS     2352
1   999     999     245
2   HHH     POI     HFT

一种与列表数量无关的更广义的解决方案。这将在形成数据帧之前执行所有拆分操作。

代码语言:javascript
复制
#allFiles = Path where all the txt files are stored

def split_delim(Files):  
    list_ = []
    for file_ in Files:
        with open(file_) as fp:
            lines1 = fp.read().split('\n')
            b = [i.split('~', 1)[1] for i in lines1]
            for i in b:
                l = i.split('*')
                list_.append(l)                
    return list_

list_new = split_delim(allFiles)

df = pd.DataFrame(list_new, columns=['col1'])
票数 1
EN

Stack Overflow用户

发布于 2019-03-15 12:35:03

使用read_csv和分隔符~,参数names,然后为DataFrame的第二列添加Series.str.split

代码语言:javascript
复制
import pandas as pd

temp=u"""ABC*DEF*123>~123*999*HHH
PQR*RST*567>~AWS*999*POI
XYZ*TGT*234>~2352*245*HFT
STU*DEF*789>~654*345*QQQ"""
#after testing replace 'pd.compat.StringIO(temp)' to 'filename.csv'
df = pd.read_csv(pd.compat.StringIO(temp), sep="~", names=['a','b'])

df = df['b'].str.split('*', expand=True)
print (df)
      0    1    2
0   123  999  HHH
1   AWS  999  POI
2  2352  245  HFT
3   654  345  QQQ

如果要使用您的解决方案,请添加另一个split

代码语言:javascript
复制
list_ = []
for file_ in allFiles:
with open(file_) as fp:
    lines1 = fp.read().split('\n')
    b = [i.split('~', 1)[1].split('*') for i in lines1]
    list_.append(b)

df = pd.DataFrame([y for x in list_ for y in x])
print(df)
票数 1
EN

Stack Overflow用户

发布于 2019-03-15 12:35:33

您必须显式地指定分隔符,例如

代码语言:javascript
复制
print('ABC*DEF*123>~123*999*HHH'.split('~')[1].split('*'))

生产:

代码语言:javascript
复制
['123', '999', 'HHH']
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55182614

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档