我正在使用这个线程来获得一些想法,并找到一些可能性。
我有大约1000个布道和他们的翻译成另一种语言。布道的长度是不同的。这些是宗教布道的经文。由于领域(宗教),有许多词可以使用不同的方式,根据上下文。同一个词可以变成不同的意思。
有没有办法,在目标语言中,我可以“以编程方式”获得给定单词的翻译?
x1 -> y2,z2,a2,b2,c2 其中x是语言1中的单词。 返回的数组包含语言2中的翻译。
这将是最好的案例。也许通过使用域数据来训练翻译模型是可能的,但是我没有太多的数据。
使用word2vec可以吗?通过创建两个文本(语言1和语言2)的向量空间,通过使用转换矩阵,是否有可能将语义意义组合在一起?
你知道其他的方法还是有其他的想法?也许已经有这样的研究了,这类研究叫什么?我没能找到这样的东西。我希望你们对如何达到这个目标有一些想法。
其一般目的是为这一特定领域的研究人员“创造一种工具”,用于分析布道的翻译质量。如果你有另一个想法,如何分析翻译的质量(语义),我将非常感谢。
发布于 2022-01-10 20:13:45
发布于 2022-01-14 14:42:51
基于字向量的解决方案(FastText向量通常比Word2Vec更好)当然是可能的。你要找的任务是双语词典的归纳。最常用的工具是VecMap,它可以对齐来自两种语言的两个嵌入空间。它要么使用一个小的种子字典来对齐所有的单词,要么它甚至可以在完全没有监督的情况下工作。
另一种解决方案是进行词对齐,即在翻译中进行统计对齐。然后,您可以根据单词之间映射的频率来获得一本字典(注意,当语言在形态上不同时,可能会出现问题)。在这种情况下,您可以很容易地展示如何在句子中使用翻译的例子。如果您感兴趣的语言都在XLM模型中,我建议使用SimAlign (一种神经解决方案)。如果没有,可以使用伊氟体 (统计解决方案)。
https://stackoverflow.com/questions/70656437
复制相似问题