首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从银行电汇交易中提取实体(比如非自然文本)

从银行电汇交易中提取实体(比如非自然文本)
EN

Stack Overflow用户
提问于 2016-05-05 06:59:06
回答 2查看 423关注 0票数 1

我试图从不太自然的文本中提取实体(名称、地址、组织),比如银行电汇交易中的评论。使用NLTK、OpenNLP和CoreNLP显然效果不佳。

知道如何提高结果吗?

文字看起来像,

  1. EVERITT 620122 T NAT ABC印度有限公司
  2. 参考ROBERT FINEMANN -理发店租赁
  3. 参考BY92 00 00 112233999 -超速罚款
  4. GEM SS HEUTIGEM SCHIENDLER
  5. 养老保险( CH1234 CAB28 )

..。

参考研究工作或现有产品也会有所帮助。

EN

回答 2

Stack Overflow用户

发布于 2016-05-25 09:20:27

如果您正在使用opennlp,并且知道如何进行培训,您应该在培训数据中给出15000个示例,这些示例如下所示

代码语言:javascript
复制
 <START:name> EVERITT <END> <START:Address> 620122T NAT <END> <START:Organisation> ABC INDIA LTD <END>
.......
....(15000 lines)

然后你可以期待一些好的结果!

票数 1
EN

Stack Overflow用户

发布于 2016-05-06 17:02:10

在我看来,你得用字典/数据库。

您可以尝试使用这样的过程来生成一个程序:http://www.cs.columbia.edu/~mcollins/papers/eacl2014.pdf

但是你仍然需要有一种方法来定义候选的“短语”--论文中的例子,例如大写单词,在这里显然行不通。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37044399

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档