在我们想要对数据集进行语义搜索的地方,我们正试图解决一个问题,即我们有一个特定于领域的数据(例如:谈论汽车的句子)。
我们的数据只是一堆句子,我们想要的是给出一个短语,然后得到以下句子:
让我试着给你举个例子,假设我搜索“购买体验”这个短语,我应该会得到这样的句子:
我从没想过买车要花不到30分钟的时间才能签字和购买。
我找到了一辆我喜欢的车,购买过程简单明了。
我绝对不喜欢去买车,但今天我很高兴我去了
我想强调的是,我们正在寻找的是上下文相似,而不仅仅是一个蛮力的词搜索。
如果句子使用不同的单词,那么它也应该能够找到它。
我们已经尝试过的事情:
任何帮助都将不胜感激。谢谢你提前提供帮助
发布于 2021-11-18 23:27:47
类似于这句话
您可以尝试短语-BERT用于短语嵌入。
文中还提到了相关的前期工作,如SentBERT和SpanBERT。
发布于 2023-01-03 14:45:18
一种选择是字移动距离(WMD)算法。大规模毁灭性武器可以有意义地找到两个文件之间的距离,即使它们没有共同的词语,只要找到最有效的方法将分发的一个文件移动到另一个文件。大规模毁灭性武器算法可以使用任何词或短语嵌入。
https://datascience.stackexchange.com/questions/67955
复制相似问题