首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从日语源估计英语翻译单词数量的算法

从日语源估计英语翻译单词数量的算法
EN

Stack Overflow用户
提问于 2008-09-28 04:06:50
回答 7查看 6.7K关注 0票数 4

我试着想出一种方法来估计从日语翻译出来的英语单词的数量。日语有三个主要的脚本-- 康吉海拉加纳片假名 --每个脚本的平均字符与单词的比率不同(汉字最低,片假名最高)。

示例:

  • 计算机:コンピュータ(片假名-6个字符);計算機(汉字:3个字符)
  • 鲸鱼:くじら(Hiragana -- 3个字符);鯨(汉字:1个字符)

作为数据,我有大量的日文词汇和他们的英语翻译,和相当大的匹配的日语源文件和他们的英语翻译。我想出一个公式来计算源文本中Kanji,Hiragana和Katakana字符的数量,并估计这可能变成的英语单词的数量。

EN

回答 7

Stack Overflow用户

回答已采纳

发布于 2008-09-28 18:26:47

我从线性近似开始:approx_english_words = a1*no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3,系数a1,a2,a3,用线性最小二乘法拟合数据。

如果这不是很好的近似,那么看看最坏的情况,因为他们不适合(专门的词汇,等等)。

票数 1
EN

Stack Overflow用户

发布于 2008-09-28 05:02:00

以下是Borland (现在的Embarcadero)对英语和非英语的看法:

英文字符串的长度(以字符为单位)

代码语言:javascript
复制
Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

我想你可以把这个(经过一些修改)应用于日语以外的非日语。

您可能需要考虑的另一个因素是语言的语气。在英语中,指令是祈使句,就像在“按OK”中一样。但在日语中,祈使句被认为是粗鲁的,你必须用敬语(或keigo)来表达指示,就像在“OKボタンを押してください”中那样。

小心三个字母的汉字组合。许多大字可以翻译成三个或四个字母的汉字组合,如国際化(国际化:20个字符)、高可用性(高可用性:17个字符)。

票数 3
EN

Stack Overflow用户

发布于 2008-09-28 05:00:24

嗯,它比名词中的字符数要复杂一些,例如,与英语相比,日语也有一个不同的语法结构,所以某些句子会在日语中使用更多的单词,而其他的则会使用较少的单词。我不太懂日语,所以请原谅我以韩语为例。

在韩语中,句子往往比英语句子短,这主要是因为用上下文来填空所缺的单词会缩短句子的长度。例如,说“我爱你”可以和사랑해一样短("sarang“,简单地说是动词" love "),或者只要完全限定句저는당신을살앙해요(I topic you topic you object love谓词+礼貌修饰语)。在一篇文章中,它的书写方式取决于上下文,而上下文通常是由段落前面的句子设置的。

无论如何,有一个算法来真正知道这类事情将是非常困难的,所以你可能会更好,仅仅使用统计。你应该做的是,在已知的日语文本和英语文本具有相同含义的情况下,使用随机样本。样本越大(越随机)越好.虽然如果它们真的是随机的,那么你已经超过几百次也不会有太大的区别。

现在,另一件事是,这一比例将完全改变的文本类型被翻译。例如,高技术文档的日文/英文长度比敏感小说高得多。

至于简单地使用你的逐字翻译词典--这可能行不通(而且很可能是错的)。同一词并不是每次在不同的语言中都翻译成同一个单词(虽然在技术讨论中发生的可能性要大得多)。例如,美丽这个词。我不仅可以用韩语指定一个以上的词(也就是有选择),而且有时我会失去这个选择,就像在句子中(食物很美),我的意思不是食物看起来很好。我的意思是它味道很好,我选择翻译这个词就变了。这是一个非常普遍的情况。

另一个大问题是最佳翻译。一些人真的很擅长的东西,和电脑更糟糕的东西。每当我校对了一份从另一篇文章翻译成英文的文件,我总能看到各种方法来把它剪得更短。

所以,尽管有了统计数据,你可以计算出一个很好的翻译长度的平均比例,但是如果所有的翻译都是最佳的话,这将是非常不同的。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/145190

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档