文章/答案/技术大牛

发布

社区首页 >问答首页 >嘈杂社交媒体罗马文NMT模型的训练

问嘈杂社交媒体罗马文NMT模型的训练
EN

Data Science用户

提问于 2021-09-28 03:26:12

回答 1查看 15关注 0票数 0

我正在尝试训练一个NMT模式，它的源端是来自社交媒体的亚洲语言的罗马文本，而目标端则是英语。请注意，由于罗马文本不是亚洲本土的，人们在互联网上打字的浪漫化是非常个人化的，因此有点嘈杂，但对于母语为母语的人来说却很容易理解。

以下是以不同方式编写印地语句子的一个例子：

Vaise bhi仅仅是paas jo bhi sab kuch dey diyaa bhaai
韦斯比先生帕斯·乔比h，梅内·阿普科

因此，我认为子字标记器在这里可能没有多大帮助(对于源端)，并且对不同的噪声变化也没有很强的鲁棒性。(请注意，目标端可以是子字标记器。)

对于源端，一般建议使用什么模型和令牌器，并在这种情况下工作？角色级别的模型最适合吗？

machine-translation

tokenization

transformer

回答 1

Data Science用户

发布于 2021-10-07 09:53:37

字符级模型很少比子词更好，即使在你自然期待的情况下也是如此(cf )。最近的论文Char什么时候比子词好:神经机器翻译分割算法的系统研究，用细化子字系统实现合理尺寸的字符级变压器NMT)。最大的收益可能来自数据处理，而不太可能来自建模改进。

低资源MT中的SoTA使用mBART或质量等预先培训过的模型，即使在使用不同语言进行预培训的情况下也是如此。在这种情况下，您需要使用预训练模型的标记化，这可能不是最优的，但是预培训的好处通常更大。

如果你能通过罗马化现有的平行语料库来生成合成数据，那将是非常有帮助的。此外，如果你能使用单语数据，迭代的回译将会有很大的帮助。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/102558

复制

相似问题

问嘈杂社交媒体罗马文NMT模型的训练
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问嘈杂社交媒体罗马文NMT模型的训练EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问嘈杂社交媒体罗马文NMT模型的训练
EN