我正在尝试从研究文章中提取有引用的句子。除了那个句子之外,我已经把所有的句子都提取出来了。
关联(对于正在经历学习过程的个体)在Hidi和Renninger的模型(2006)中似乎是触发因素,可以是Priniski等人的连续体中的任何一种关联类型。
(r'\w.+\(\d{4}\)+\.*', regex = True)是我使用过的模式。我不知道括号内的词语是否要处理。
该条中的样本段落:
成人教育的工作相关性:个案研究叙述2,Hanne Haave2和Aristidis Kaloudis1 \n nOn,挪威\nTone.vold@ntnu.no \nTone.vold@inn.no \nHanne.haave@inn.no \nAristidis.kaloudis@ntnu.no \nDOI: 10.34190/EJKM.18.02.002 \n\n摘要:人们越来越关注高等教育的相关性。这主要是关于增加工作机会或个人的工作晋升。然而,高等教育的相关性也可能与解决工作场所的重要问题或\n问题有关。教育活动如何具有相关性,有一些必要的先决条件。首先,学生必须能够发现一般知识和获得的技能如何适用于工作中的具体情况\n。这需要经验、对组织的规范和文化的理解以及某种形式的实用智慧。
,我已经拆分和标记了这些句子,然后将其转换成一个数据格式,我试图使用下面的代码
来匹配和提取引用的整个句子
(打印(df[df'sentences'.str.contains((r'\w.+(\d{4})+.*',regex =True))是我使用的代码,用于从dataframe (df)中提取所有行/句子并引用。
我已经成功地编写了不同的regex模式,这些模式与我的dataframe的行中的整个句子相匹配。与我的问题句匹配的正则表达式将帮助我解决问题。
发布于 2020-07-16 02:23:49
您的正则表达式将在parens中包含4位数字的任何序列之后停止,在本例中"(2006)“重复1次或多次,然后可能重复0次或更多次。
因此,您将需要一个模式,以获得后面的字符父系,然后一个句号的句号结束的模式,而不是捕获例如“。在“等人”中。
我建议使用https://regex101.com/来测试regex。
https://stackoverflow.com/questions/62926318
复制相似问题