首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从文本数据中查找作业角色

从文本数据中查找作业角色
EN

Stack Overflow用户
提问于 2016-05-24 06:35:41
回答 1查看 213关注 0票数 0

我有一个文本文件,我必须从它中提取出人们在工作中扮演的角色。“机械工程师”,“软件开发人员”等。我用NLTK来提取它,例如,

代码语言:javascript
复制
grammer= r"""
          NP: {<NN.*|JJ>*<NN.*>}  """

我得到的结果是好的,但仍然对少数文件垃圾即将到来。对于这些行,我想应用正则表达式。

我的短信样本是这样的。

  • 我是微软的软件开发工程师
  • 我是机械工程师,有10年的工作经验

我想要的是,我会在“工程师”之前提取两个或三个单词。我使用正则表达式,例如,

代码语言:javascript
复制
regex=re.compile('|'.join([r'(?:\S+\s)?\S*[eE]ngineer']))

但是,它只在特定单词之前提取一个单词。如何使它提取两个或更多的单词。?

我试着用{2-3}代替"?“在表达上。但我没有得到想要的结果。

我的方法正确吗?或者其他更好地提取这个特定短语的方法?

EN

回答 1

Stack Overflow用户

发布于 2016-05-24 07:50:39

判罚

代码语言:javascript
复制
 (\w+\s){2,3}dog

将匹配

代码语言:javascript
复制
over the lazy dog
the lazy dog

在……里面

代码语言:javascript
复制
The quick brown fox jumps over the lazy dog the lazy dog

我想这会让你开始的

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37406032

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档