首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我很难使用regex从数据文件中提取某些信息。

我很难使用regex从数据文件中提取某些信息。
EN

Ask Ubuntu用户
提问于 2014-02-12 10:22:00
回答 3查看 454关注 0票数 1

我正在处理的具有以下格式的数据:

代码语言:javascript
复制
1880    20  David   7570    Mabel   13096

我需要拉一年(1880年),军衔(20),只有名称(大卫或梅贝尔)。最终结果是:

代码语言:javascript
复制
1880        20      David

代码语言:javascript
复制
1880        20      Mabel

我成功地将年份、排名和名称分开,但我在整理一个完整的正则表达式时遇到了一些问题。我知道regex的基本知识,但我目前无法访问我的笔记。

我试着用白鹭。

EN

回答 3

Ask Ubuntu用户

回答已采纳

发布于 2014-02-12 10:31:17

我推荐Python解决方案(我不知道您目前使用的是什么):

代码语言:javascript
复制
import re

re_find_data = re.compile(r'^(\d+)\s+(\d+)\s+(\S+)\s+(\d+)\s+(\S+)\s+(\d+)关于grep在这种情况下,我不确定是否可以使用grep。它缺乏打印特定编号组的能力,这正是您所需要的(我相信)。我很想知道你的教授(或其他人)是否有一个纯grep的解决方案。这个Regex应该可以工作,但是您需要从编号组中提取您想要的字段(在Python示例中演示):(\d+)\s+(\d+)\s+(\S+)\s+(\d+)\s+(\S+)\s+(\d+)grep只是不合适的工具。Regex是,但在不同的实现下(hello,Python!)。)

for line in open(r'/path/to/file'):
    for match in re_find_date.findall(line):
        print(match)
        # Do something with 'match'

        # You can index the 'match' tuple like so:
        print(match[2])
        # Print 3rd part (name)

K11关于grepK23

在这种情况下,我不确定是否可以使用grep。它缺乏打印特定编号组的能力,这正是您所需要的(我相信)。我很想知道你的教授(或其他人)是否有一个纯grep的解决方案。

这个Regex应该可以工作,但是您需要从编号组中提取您想要的字段(在Python示例中演示):

A4

grep只是不合适的工具。Regex是,但在不同的实现下(hello,Python!)。

票数 2
EN

Ask Ubuntu用户

发布于 2014-02-12 10:28:29

代码语言:javascript
复制
grep -Po '\d+\s+\d+\s+\w+' file.txt
票数 3
EN

Ask Ubuntu用户

发布于 2014-02-19 17:06:34

仅仅使用grep是不可能的(至少从我的类范围来看)。几天后,我的教授告诉我,他想让我们用命令的组合来达到预期的结果。然而,所有的答复都是有效的,并且在我尝试它们的时候起了作用。这只是一个直接回答这个问题的基础上非常初级的知识(一个人的Ubuntu目前的经验)。

票数 0
EN
页面原文内容由Ask Ubuntu提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://askubuntu.com/questions/419859

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档