我需要使用它的抽象和支持同义词自动生成出版物的类别。我有800到900篇文章的分类数据,我可以用来训练.这种分类数据是由制药专家通过阅读一份非结构化出版物生成的。
现有出版物的分类如下:
这些类别目前是由人类专家产生的。我在node.js中探索了自然库,在Java中探索了lingpipe。它有分类器,但我无法找出最有效的方法来训练它,所以我得到90%的准确性。
以下是我心目中的一些方法:
根据你的经验,解决这个问题最有效的方法是什么?我对任何语言的解决方案都是开放的,但我更喜欢Javascript,因为现有的堆栈在Javascript中。
发布于 2018-01-30 05:41:51
我建议在朴素贝叶斯分类器中使用最频繁的单词或单词频率作为特征。
不需要单独标注句子。我希望在文档级别上有合理的准确性,尽管这将取决于您的文档的性质培训和分类。
下面对Python实现的讨论
发布于 2018-01-30 05:45:14
据我所知,你的第二个解决方案会很有魅力。为了完成你的工作,你需要训练你的分类器。
你需要通过classifier.train(data, labels);。我知道这将是一项手工工作,但训练你的分类器几乎不需要时间。
一旦它被训练,你就可以很好地通过你的一个句子,自己看输出。
发布于 2018-01-31 19:30:01
在投资于培训之前,你应该先探索现有的实体识别模型。Spacy是用Python编写的,但是有一个javascript绑定。该分类器在自然使用朴素贝叶斯和logistic回归的情况下,不会有像Spacy这样的神经网络库那样好的性能。我怀疑,对于那些还没有在培训集中看到药物、疾病或作者姓名的新病例,自然疗法不会奏效。
https://stackoverflow.com/questions/48514188
复制相似问题