我有一个大的文本语料库(一个公司的文档),我想提取特定于该领域/业务的术语。我可以用TF或TF-以色列国防军来做这件事,并且用单词的频率来指导自己,这并不总是可靠的。
我也想对单句、短句这样做,但我认为这已经比较困难了。我还想用维基百科的文章来训练一个模型,然后把它应用到我的文档文本中。
是否有任何方法识别与某一特定领域相关的单词?
发布于 2021-07-26 10:31:37
一段时间前,我创建了一个类似的应用程序,我从语料库中提取了特征(重要的定义术语),然后用我的输入单词计算这些单词之间的单词相似度,并汇总结果。
如果您想在语义上比较这些单词,可以使用像GloVe这样的单词嵌入。
发布于 2021-07-27 07:49:46
您可以使用TF、TextRank、TopicRank、YAKE!和KeyBERT进行关键字提取.
https://datascience.stackexchange.com/questions/98311
复制相似问题