首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >嘈杂社交媒体罗马文NMT模型的训练

嘈杂社交媒体罗马文NMT模型的训练
EN

Data Science用户
提问于 2021-09-28 03:26:12
回答 1查看 15关注 0票数 0

我正在尝试训练一个NMT模式,它的源端是来自社交媒体的亚洲语言的罗马文本,而目标端则是英语。请注意,由于罗马文本不是亚洲本土的,人们在互联网上打字的浪漫化是非常个人化的,因此有点嘈杂,但对于母语为母语的人来说却很容易理解。

以下是以不同方式编写印地语句子的一个例子:

  • Vaise bhi仅仅是paas jo bhi sab kuch dey diyaa bhaai
  • 韦斯比先生帕斯·乔比h,梅内·阿普科

因此,我认为子字标记器在这里可能没有多大帮助(对于源端),并且对不同的噪声变化也没有很强的鲁棒性。(请注意,目标端可以是子字标记器。)

对于源端,一般建议使用什么模型和令牌器,并在这种情况下工作?角色级别的模型最适合吗?

EN

回答 1

Data Science用户

发布于 2021-10-07 09:53:37

字符级模型很少比子词更好,即使在你自然期待的情况下也是如此(cf )。最近的论文Char什么时候比子词好:神经机器翻译分割算法的系统研究用细化子字系统实现合理尺寸的字符级变压器NMT)。最大的收益可能来自数据处理,而不太可能来自建模改进。

低资源MT中的SoTA使用mBART质量等预先培训过的模型,即使在使用不同语言进行预培训的情况下也是如此。在这种情况下,您需要使用预训练模型的标记化,这可能不是最优的,但是预培训的好处通常更大。

如果你能通过罗马化现有的平行语料库来生成合成数据,那将是非常有帮助的。此外,如果你能使用单语数据,迭代的回译将会有很大的帮助。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/102558

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档