我正在尝试训练一个NMT模式,它的源端是来自社交媒体的亚洲语言的罗马文本,而目标端则是英语。请注意,由于罗马文本不是亚洲本土的,人们在互联网上打字的浪漫化是非常个人化的,因此有点嘈杂,但对于母语为母语的人来说却很容易理解。
以下是以不同方式编写印地语句子的一个例子:
因此,我认为子字标记器在这里可能没有多大帮助(对于源端),并且对不同的噪声变化也没有很强的鲁棒性。(请注意,目标端可以是子字标记器。)
对于源端,一般建议使用什么模型和令牌器,并在这种情况下工作?角色级别的模型最适合吗?
发布于 2021-10-07 09:53:37
字符级模型很少比子词更好,即使在你自然期待的情况下也是如此(cf )。最近的论文Char什么时候比子词好:神经机器翻译分割算法的系统研究,用细化子字系统实现合理尺寸的字符级变压器NMT)。最大的收益可能来自数据处理,而不太可能来自建模改进。
低资源MT中的SoTA使用mBART或质量等预先培训过的模型,即使在使用不同语言进行预培训的情况下也是如此。在这种情况下,您需要使用预训练模型的标记化,这可能不是最优的,但是预培训的好处通常更大。
如果你能通过罗马化现有的平行语料库来生成合成数据,那将是非常有帮助的。此外,如果你能使用单语数据,迭代的回译将会有很大的帮助。
https://datascience.stackexchange.com/questions/102558
复制相似问题