首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >文本中的行话提取

文本中的行话提取
EN

Data Science用户
提问于 2021-07-26 08:51:26
回答 2查看 66关注 0票数 0

我有一个大的文本语料库(一个公司的文档),我想提取特定于该领域/业务的术语。我可以用TF或TF-以色列国防军来做这件事,并且用单词的频率来指导自己,这并不总是可靠的。

我也想对单句、短句这样做,但我认为这已经比较困难了。我还想用维基百科的文章来训练一个模型,然后把它应用到我的文档文本中。

是否有任何方法识别与某一特定领域相关的单词?

EN

回答 2

Data Science用户

发布于 2021-07-26 10:31:37

一段时间前,我创建了一个类似的应用程序,我从语料库中提取了特征(重要的定义术语),然后用我的输入单词计算这些单词之间的单词相似度,并汇总结果。

如果您想在语义上比较这些单词,可以使用像GloVe这样的单词嵌入。

票数 0
EN

Data Science用户

发布于 2021-07-27 07:49:46

您可以使用TF、TextRank、TopicRank、YAKE!和KeyBERT进行关键字提取.

查看本文:https://towardsdatascience.com/keyword-extraction-python-tf-idf-textrank-topicrank-yake-bert-7405d51cd839

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/98311

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档