文章/答案/技术大牛

发布

社区首页 >问答首页 >在语料库中查找给定单词的翻译，例如通过机器学习、word2vec、文本挖掘

问在语料库中查找给定单词的翻译，例如通过机器学习、word2vec、文本挖掘
EN

Stack Overflow用户

提问于 2022-01-10 17:20:44

回答 2查看 70关注 0票数 1

我正在使用这个线程来获得一些想法，并找到一些可能性。

我有大约1000个布道和他们的翻译成另一种语言。布道的长度是不同的。这些是宗教布道的经文。由于领域(宗教)，有许多词可以使用不同的方式，根据上下文。同一个词可以变成不同的意思。

有没有办法，在目标语言中，我可以“以编程方式”获得给定单词的翻译？

x1 -> y2，z2，a2，b2，c2 其中x是语言1中的单词。返回的数组包含语言2中的翻译。

这将是最好的案例。也许通过使用域数据来训练翻译模型是可能的，但是我没有太多的数据。

使用word2vec可以吗？通过创建两个文本(语言1和语言2)的向量空间，通过使用转换矩阵，是否有可能将语义意义组合在一起？

你知道其他的方法还是有其他的想法？也许已经有这样的研究了，这类研究叫什么？我没能找到这样的东西。我希望你们对如何达到这个目标有一些想法。

其一般目的是为这一特定领域的研究人员“创造一种工具”，用于分析布道的翻译质量。如果你有另一个想法，如何分析翻译的质量(语义)，我将非常感谢。

machine-learning

text-mining

word2vec

language-translation

machine-translation

回答 2

Stack Overflow用户

发布于 2022-01-10 20:13:45

要获得句子中特定单词的翻译，您可以使用所谓的单词对齐。

要获得翻译的质量，您可以使用所谓的质量评估。

/质量评估

票数 1

Stack Overflow用户

发布于 2022-01-14 14:42:51

基于字向量的解决方案(FastText向量通常比Word2Vec更好)当然是可能的。你要找的任务是双语词典的归纳。最常用的工具是VecMap，它可以对齐来自两种语言的两个嵌入空间。它要么使用一个小的种子字典来对齐所有的单词，要么它甚至可以在完全没有监督的情况下工作。

另一种解决方案是进行词对齐，即在翻译中进行统计对齐。然后，您可以根据单词之间映射的频率来获得一本字典(注意，当语言在形态上不同时，可能会出现问题)。在这种情况下，您可以很容易地展示如何在句子中使用翻译的例子。如果您感兴趣的语言都在XLM模型中，我建议使用SimAlign (一种神经解决方案)。如果没有，可以使用伊氟体 (统计解决方案)。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70656437

复制

相似问题

问在语料库中查找给定单词的翻译，例如通过机器学习、word2vec、文本挖掘
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在语料库中查找给定单词的翻译，例如通过机器学习、word2vec、文本挖掘EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在语料库中查找给定单词的翻译，例如通过机器学习、word2vec、文本挖掘
EN