我正在尝试使用斯坦福NLP工具从文本中提取日期( 8/11/2012 )。
这是a link!有关此工具的演示
你能帮助我如何训练分类器来识别日期( 8/11/2012 )。
我尝试使用训练数据作为
伍德豪斯PERS 2012年8月18日,哦,帅哥O
但不适用于相同的测试数据。
发布于 2012-11-14 05:30:22
发布于 2012-11-15 03:17:30
您当然可以训练基于CRF的NER来识别日期和时间。通过运行提供的english.muc.7class.distsim.crf.ser.gz模型,您可以看到一个这样的示例。有关培训NER系统的信息,请参阅the FAQ。但请注意,我们用于时间/日期识别的主要工具现在是基于正则表达式的: SUTime。您还可以为其他应用程序编写SUTime规则。请参阅该页面上的SUTime page和指向TokensRegex的链接。
发布于 2014-05-28 19:07:55
在sutime/english.sutime.txt行319中,有几种用于US标记的模式:
{ ruleType: "time", pattern: /yyyy-?MM-?dd-?'T'HH(:?mm(:?ss([.,]S{1,3})?)?)?(Z)?/ }
{ ruleType: "time", pattern: /yyyy-MM-dd/ }
{ ruleType: "time", pattern: /'T'HH(:?mm(:?ss(.,)?)?)?(Z)?/ }
// Tokenizer "sometimes adds extra slash
{ ruleType: "time", pattern: /yyyy\?/MM\?/dd/ }
{ ruleType: "time", pattern: /MM?\?/dd?\?/(yyyy|yy)/ }
{ ruleType: "time", pattern: /MM?-dd?-(yyyy|yy)/ }
{ ruleType: "time", pattern: /HH?:mm(:ss)?/ }
{ ruleType: "time", pattern: /yyyy-MM/ }只需要添加几个ruleTypes,就可以获得所需的订单
https://stackoverflow.com/questions/13367066
复制相似问题