我正在处理的具有以下格式的数据:
1880 20 David 7570 Mabel 13096我需要拉一年(1880年),军衔(20),只有名称(大卫或梅贝尔)。最终结果是:
1880 20 David或
1880 20 Mabel我成功地将年份、排名和名称分开,但我在整理一个完整的正则表达式时遇到了一些问题。我知道regex的基本知识,但我目前无法访问我的笔记。
我试着用白鹭。
发布于 2014-02-12 10:31:17
我推荐Python解决方案(我不知道您目前使用的是什么):
import re
re_find_data = re.compile(r'^(\d+)\s+(\d+)\s+(\S+)\s+(\d+)\s+(\S+)\s+(\d+)关于grep在这种情况下,我不确定是否可以使用grep。它缺乏打印特定编号组的能力,这正是您所需要的(我相信)。我很想知道你的教授(或其他人)是否有一个纯grep的解决方案。这个Regex应该可以工作,但是您需要从编号组中提取您想要的字段(在Python示例中演示):(\d+)\s+(\d+)\s+(\S+)\s+(\d+)\s+(\S+)\s+(\d+)grep只是不合适的工具。Regex是,但在不同的实现下(hello,Python!)。)
for line in open(r'/path/to/file'):
for match in re_find_date.findall(line):
print(match)
# Do something with 'match'
# You can index the 'match' tuple like so:
print(match[2])
# Print 3rd part (name)K11关于grepK23
在这种情况下,我不确定是否可以使用grep。它缺乏打印特定编号组的能力,这正是您所需要的(我相信)。我很想知道你的教授(或其他人)是否有一个纯grep的解决方案。
这个Regex应该可以工作,但是您需要从编号组中提取您想要的字段(在Python示例中演示):
A4
grep只是不合适的工具。Regex是,但在不同的实现下(hello,Python!)。
发布于 2014-02-12 10:28:29
grep -Po '\d+\s+\d+\s+\w+' file.txt发布于 2014-02-19 17:06:34
仅仅使用grep是不可能的(至少从我的类范围来看)。几天后,我的教授告诉我,他想让我们用命令的组合来达到预期的结果。然而,所有的答复都是有效的,并且在我尝试它们的时候起了作用。这只是一个直接回答这个问题的基础上非常初级的知识(一个人的Ubuntu目前的经验)。
https://askubuntu.com/questions/419859
复制相似问题