首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在语料库中查找给定单词的翻译,例如通过机器学习、word2vec、文本挖掘

在语料库中查找给定单词的翻译,例如通过机器学习、word2vec、文本挖掘
EN

Stack Overflow用户
提问于 2022-01-10 17:20:44
回答 2查看 70关注 0票数 1

我正在使用这个线程来获得一些想法,并找到一些可能性。

我有大约1000个布道和他们的翻译成另一种语言。布道的长度是不同的。这些是宗教布道的经文。由于领域(宗教),有许多词可以使用不同的方式,根据上下文。同一个词可以变成不同的意思。

有没有办法,在目标语言中,我可以“以编程方式”获得给定单词的翻译?

x1 -> y2,z2,a2,b2,c2 其中x是语言1中的单词。 返回的数组包含语言2中的翻译。

这将是最好的案例。也许通过使用域数据来训练翻译模型是可能的,但是我没有太多的数据。

使用word2vec可以吗?通过创建两个文本(语言1和语言2)的向量空间,通过使用转换矩阵,是否有可能将语义意义组合在一起?

你知道其他的方法还是有其他的想法?也许已经有这样的研究了,这类研究叫什么?我没能找到这样的东西。我希望你们对如何达到这个目标有一些想法。

其一般目的是为这一特定领域的研究人员“创造一种工具”,用于分析布道的翻译质量。如果你有另一个想法,如何分析翻译的质量(语义),我将非常感谢。

EN

回答 2

Stack Overflow用户

发布于 2022-01-10 20:13:45

要获得句子中特定单词的翻译,您可以使用所谓的单词对齐

要获得翻译的质量,您可以使用所谓的质量评估

/质量评估

票数 1
EN

Stack Overflow用户

发布于 2022-01-14 14:42:51

基于字向量的解决方案(FastText向量通常比Word2Vec更好)当然是可能的。你要找的任务是双语词典的归纳。最常用的工具是VecMap,它可以对齐来自两种语言的两个嵌入空间。它要么使用一个小的种子字典来对齐所有的单词,要么它甚至可以在完全没有监督的情况下工作。

另一种解决方案是进行词对齐,即在翻译中进行统计对齐。然后,您可以根据单词之间映射的频率来获得一本字典(注意,当语言在形态上不同时,可能会出现问题)。在这种情况下,您可以很容易地展示如何在句子中使用翻译的例子。如果您感兴趣的语言都在XLM模型中,我建议使用SimAlign (一种神经解决方案)。如果没有,可以使用伊氟体 (统计解决方案)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70656437

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档