首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python快速字符串解析,操作

Python快速字符串解析,操作
EN

Stack Overflow用户
提问于 2010-07-03 03:25:40
回答 2查看 5.7K关注 0票数 4

我正在使用python解析以逗号分隔的传入字符串。我想在之后对数据做一些计算。字符串的长度为: 800个字符,包含120个逗号分隔的字段。有120万个字符串需要处理。

代码语言:javascript
复制
for v in item.values():
         l.extend(get_fields(v.split(',')))  
#process l 

get_fields使用operator.itemgetter()从120个字段中提取大约20个字段。

整个操作大约需要4-5分钟,不包括引入数据的时间。在程序的后面部分,我将这些行插入到sqlite内存表中以供进一步使用。但总体而言,仅解析和获取列表的4-5分钟时间对我的项目并不好。

我在大约6-8个线程中运行这个处理。

切换到C/C++可能会有帮助吗?

EN

回答 2

Stack Overflow用户

发布于 2010-07-03 04:56:34

您是否正在加载包含您的文件记录的字典?直接处理数据可能更好:

代码语言:javascript
复制
datafile = file("file_with_1point2million_records.dat")
# uncomment next to skip over a header record
# file.next()

l = sum(get_fields(v.split(',')) for v in file, [])

这避免了创建任何整体数据结构,并且只累加了get_fields返回的所需值。

票数 3
EN

Stack Overflow用户

发布于 2010-07-03 03:37:46

您的程序可能会因为试图为120M字符串分配足够的内存而变慢。换句话说,速度问题可能不是由于字符串解析/操作造成的,而是由于l.extend造成的。要测试这个假设,您可以在循环中放入一条print语句:

代码语言:javascript
复制
for v in item.values():
    print('got here')
    l.extend(get_fields(v.split(',')))  

如果打印语句变得越来越慢,您可能会得出结论:l.extend是罪魁祸首。在这种情况下,如果可以将每一行的处理移到循环中,您可能会看到显着的速度提高。

PS:您可能应该使用csv模块来以更高级的方式为您处理解析,但我认为这不会对速度产生太大影响。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3168560

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档