文章/答案/技术大牛

发布

社区首页 >问答首页 >自然语言处理中用于信息抽取的模式识别或命名实体识别

问自然语言处理中用于信息抽取的模式识别或命名实体识别
EN

Stack Overflow用户

提问于 2017-05-16 03:08:20

回答 2查看 672关注 0票数 0

有一些事件描述文本。我想提取活动的入场费。有时入场费是有条件的。

我想要实现的是提取入场费及其条件(如果可用)。检索整个短语或句子来说明入场费+它的条件是很好的。

注一:课文为德语。注二:通常句子不完整，因为它们主要是活动传单或广告。

在NLP中，这个问题属于什么类别？它是命名实体识别，可以通过使用Apache openNLP训练自己的模型来解决吗？或者，我认为通过用例中常见的关键字(entrance，$，但只有usual，numberam/pm，...)来检测模式可能会更容易。

请给我一些启发。

输入示例：-“如果你在晚上10点前进入俱乐部，门票是免费的。之后是6美元。”-“今晚11点到凌晨5点加入我们的派对，入场费是8美元。但对女孩和学生来说是半价。”

nlp

feature-extraction

opennlp

pattern-recognition

information-extraction

回答 2

Stack Overflow用户

发布于 2017-05-16 09:51:57

这大体上是一个结构学习问题。您可能需要将命名实体识别/标记与共引用解析结合起来。阅读一些关于这些的论文以及相关的github代码，并从中学习。这里很好地讨论了目前https://www.reddit.com/r/MachineLearning/comments/3dz3fl/dl_architectures_for_entity_recognition_and_other/中最先进的工具

希望这能有所帮助。

票数 1

Stack Overflow用户

发布于 2017-05-16 05:13:26

您可以尝试使用斯坦福大学的CoreNLP作为命名实体提取部分。它应该能够帮助您挑选出货币价值，还可以链接到为德语培训的模型(https://nlp.stanford.edu/software/CRF-NER.shtml)。

考虑到提取包含信息的整个句子是很好的，我建议采用二元句子分类方法。通过使用ngram和一些命名实体信息作为特性，您可能会得到很大的帮助。这意味着您需要构建一个自动将文档分割成类似句子的块的管道。你可以尝试一个句子分割工具(也是斯坦福CoreNLP提供的)作为first go https://stanfordnlp.github.io/CoreNLP/。由于这将构成所有进一步工作的基础，因此您需要确保结果至少是好的。也许文档本身的结构为您提供了足够的信息来分割它，甚至不需要使用句子分割工具。

在有了这个管道之后，您可能希望将从大量文档中提取的句子注释为相关或不相关，以使其成为一个二进制分类任务。然后基于该数据集训练模型。最后，当您将其应用于看不见的数据时，首先使用句子分割方法，然后对每个句子进行分类。

票数 -3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43987060

复制

相似问题

问自然语言处理中用于信息抽取的模式识别或命名实体识别
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问自然语言处理中用于信息抽取的模式识别或命名实体识别EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问自然语言处理中用于信息抽取的模式识别或命名实体识别
EN