首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >语义搜索

语义搜索
EN

Data Science用户
提问于 2020-02-12 10:08:45
回答 2查看 156关注 0票数 2

在我们想要对数据集进行语义搜索的地方,我们正试图解决一个问题,即我们有一个特定于领域的数据(例如:谈论汽车的句子)。

我们的数据只是一堆句子,我们想要的是给出一个短语,然后得到以下句子:

  1. 类似于这句话
  2. 有与短语相似的句子的一部分
  3. 具有上下文相似意义的句子

让我试着给你举个例子,假设我搜索“购买体验”这个短语,我应该会得到这样的句子:

我从没想过买车要花不到30分钟的时间才能签字和购买。

我找到了一辆我喜欢的车,购买过程简单明了。

我绝对不喜欢去买车,但今天我很高兴我去了

我想强调的是,我们正在寻找的是上下文相似,而不仅仅是一个蛮力的词搜索。

如果句子使用不同的单词,那么它也应该能够找到它。

我们已经尝试过的事情:

  1. 开放语义搜索( Open,https://www.opensemanticsearch.org/)我们面临的问题是根据我们拥有的数据生成本体,或者为此从我们感兴趣的不同领域搜索可用的本体。
  2. 弹性搜索(BM25+向量机(TF-国防军)),我们尝试了这一点,它给出了几句话,但精确度没有那么高。准确性也很差。我们尝试了一个人类策划的数据集,它只能得到10%的句子。
  3. 我们尝试了不同的嵌入,比如在https://github.com/UKPLab/sentence-transformers中提到的一次嵌入,并通过示例https://github.com/UKPLab/sentence-transformers/blob/master/examples/application_语义_search.py,并尝试对我们的人工策划人集进行评估,这也有一个非常低的准确性。
  4. 我们尝试了ELMO(https://towardsdatascience.com/elmo-contextual-language-embedding-335de2268604),这是更好的,但仍然低于我们的预期,并有一个认知负荷来决定余弦值,低于我们不应该考虑的句子。这甚至适用于第3点。

任何帮助都将不胜感激。谢谢你提前提供帮助

EN

回答 2

Data Science用户

发布于 2021-11-18 23:27:47

类似于这句话

您可以尝试短语-BERT用于短语嵌入。

文中还提到了相关的前期工作,如SentBERT和SpanBERT。

票数 0
EN

Data Science用户

发布于 2023-01-03 14:45:18

一种选择是字移动距离(WMD)算法。大规模毁灭性武器可以有意义地找到两个文件之间的距离,即使它们没有共同的词语,只要找到最有效的方法将分发的一个文件移动到另一个文件。大规模毁灭性武器算法可以使用任何词或短语嵌入。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/67955

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档