首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从文本中提取日期

从文本中提取日期
EN

Stack Overflow用户
提问于 2012-11-14 03:06:03
回答 3查看 8.8K关注 0票数 4

我正在尝试使用斯坦福NLP工具从文本中提取日期( 8/11/2012 )。

这是a link!有关此工具的演示

你能帮助我如何训练分类器来识别日期( 8/11/2012 )。

我尝试使用训练数据作为

伍德豪斯PERS 2012年8月18日,哦,帅哥O

但不适用于相同的测试数据。

EN

回答 3

Stack Overflow用户

发布于 2012-11-14 05:30:22

使用NLP工具从文本中提取日期似乎有点过分,如果这就是您要尝试完成的全部任务。您应该考虑其他选项,如简单的Java正则表达式(例如,here)。

如果您正在做的事情需要来自Stanford NLP工具的更多特性,请看一下SUTime注释器。他们的demo page会让你对它的行为有个了解。确保选中选项Read rules from file,您将看到您的日期已添加注释。

用法:

代码语言:javascript
复制
SUTime annotations are provided automatically with the StanfordCoreNLP pipeline by including the ner annotator.
票数 8
EN

Stack Overflow用户

发布于 2012-11-15 03:17:30

您当然可以训练基于CRF的NER来识别日期和时间。通过运行提供的english.muc.7class.distsim.crf.ser.gz模型,您可以看到一个这样的示例。有关培训NER系统的信息,请参阅the FAQ。但请注意,我们用于时间/日期识别的主要工具现在是基于正则表达式的: SUTime。您还可以为其他应用程序编写SUTime规则。请参阅该页面上的SUTime page和指向TokensRegex的链接。

票数 4
EN

Stack Overflow用户

发布于 2014-05-28 19:07:55

在sutime/english.sutime.txt行319中,有几种用于US标记的模式:

代码语言:javascript
复制
{ ruleType: "time", pattern: /yyyy-?MM-?dd-?'T'HH(:?mm(:?ss([.,]S{1,3})?)?)?(Z)?/ } 
{ ruleType: "time", pattern: /yyyy-MM-dd/ }  
{ ruleType: "time", pattern: /'T'HH(:?mm(:?ss(.,)?)?)?(Z)?/ } 
// Tokenizer "sometimes adds extra slash  
{ ruleType: "time", pattern: /yyyy\?/MM\?/dd/ }  
{ ruleType: "time", pattern: /MM?\?/dd?\?/(yyyy|yy)/ } 
{ ruleType: "time", pattern: /MM?-dd?-(yyyy|yy)/ } 
{ ruleType: "time", pattern: /HH?:mm(:ss)?/ }
{ ruleType: "time", pattern: /yyyy-MM/ }

只需要添加几个ruleTypes,就可以获得所需的订单

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13367066

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档