问如何抓取语义相似的句子
EN

Stack Overflow用户

提问于 2020-06-06 19:27:44

回答 1查看 93关注 0票数 1

我想为机器学习任务创建一个语料库。我有一个小的文本数据集，并想从网络上抓取相似的句子。使用Bert相关模型、doc2vec和空间相似度的sentence_transformers软件包进行相似性度量。我将阈值设置为85%，但相似度得分高于阈值的句子并不真正相关。如何用python从web上抓取相似的句子？

python

nlp

data-science

sentence-similarity

semantic-analysis

回答 1

Stack Overflow用户

发布于 2020-06-06 23:16:19

我认为你应该在一个大型语料库上训练一个大型模型，然后使用这个模型来生成随机句子。gensim库有几个corpora link，您可以使用它们来查找相似句子或训练生成相似句子的模型，here是如何做到这一点的。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62231031

复制

相似问题

问如何抓取语义相似的句子
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何抓取语义相似的句子EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何抓取语义相似的句子
EN