我有一套十节圣经的英文经文。我想在文本中检测出这些诗句中的任何一段。做这件事最好的方法是什么?
请注意,圣经的经文在不同的译文中的措辞是不同的。例如,“因为他关心你而把你所有的焦虑抛在他身上”这句话在其他翻译中是这样存在的:
[新译]把你一切的心思都托付在他身上,因为他在乎你。
ESV把你所有的焦虑都投在他身上,因为他关心你。
将你所有的忧虑和忧虑都交给上帝,因为他关心你。
此外,人们在写诗时可能会打字或出错。
你认为语义搜索是最好的方法吗?如果是这样的话,我是否使用一个相关的单词嵌入模型,在我的10节诗集上重新训练它,然后搜索我的文本来查找这些诗句的出现情况?
搜索机制将如何运作?我是否得到了逐句嵌入的单词,并将每个句子的嵌入与我的“圣经”语料库中的10节经文的嵌入进行了比较?
发布于 2020-09-22 14:13:13
一种方法是使用字移器距离(大规模毁灭性武器)。WMD是一种在不同长度的文本之间寻找距离的算法,其中每个单词都表示为一个字嵌入向量。
大规模毁灭性武器距离将两个文本文档之间的差异度量为一个文档的嵌入词为了到达另一个文档的嵌入词而需要“移动”的最小距离。
例如:

来源:“从文字嵌入到文档距离”纸
课文中的每一句都可以与“圣经”中的10节经文相比较。圣经中的诗句可以根据相似程度进行排序。
https://datascience.stackexchange.com/questions/81661
复制相似问题