我想为机器学习任务创建一个语料库。我有一个小的文本数据集,并想从网络上抓取相似的句子。使用Bert相关模型、doc2vec和空间相似度的sentence_transformers软件包进行相似性度量。我将阈值设置为85%,但相似度得分高于阈值的句子并不真正相关。如何用python从web上抓取相似的句子?
发布于 2020-06-06 23:16:19
我认为你应该在一个大型语料库上训练一个大型模型,然后使用这个模型来生成随机句子。gensim库有几个corpora link,您可以使用它们来查找相似句子或训练生成相似句子的模型,here是如何做到这一点的。
gensim
corpora
https://stackoverflow.com/questions/62231031
相似问题