我不是机器学习方面的专家,所以我会尽力做到尽可能准确。
我目前正在分析有关某一特定基金的信息的财务文件。我想做的是能够提取基金的名称。
为此,我使用命名实体识别(NER)在Azure机器学习平台。在分析了大约。100份文件,我得到的结果被归类为组织。在大多数情况下,他们是真正的组织。这很好,但我的问题是,基金的名称也被归类为一个组织。我无法区分公司名称和基金名称。
从互联网上的一些阅读资料中,我可以发现宪报制度是有帮助的,这样我们便可以将认可的机构与一份基金名单相匹配,从而确保我们有一个基金名称。
你觉得这是个好办法吗?或者,还有其他的算法,我应该尝试改进的结果?
谢谢你的建议!
发布于 2015-06-22 19:57:39
NER的起源在于识别文本,识别广泛的语义类别,比如在您的情况下人员或组织(公司)的名称。阅读问题的描述,我不认为这是你真正想要解决的问题。你特别提到:
这个宪报制度可以提供帮助,使我们可以把认可的组织与一份基金清单相匹配。
我怀疑您真正想要解决的问题是语义互操作性--您希望NLP程序中的文本与另一个系统中的列表相匹配。在这种情况下,您要解决问题的唯一可接受的方法是将所有输入文本映射到一个列表/通用标准--即使用地名录。所以你走上了正确的道路。
唯一的警告是,如果您只需要,需要区分基金和其他类型的组织,而不需要将结果与列表进行匹配。如果是这样的话,您可以编写一个分类器来区分资金和其他所有内容,并且可以避免完全映射到您的列表。否则就用地名录。
https://stackoverflow.com/questions/30925579
复制相似问题