在NLP中,语言通常被称为low resource或high resource。
这些术语意味着什么?
发布于 2019-11-08 12:21:59
高资源语言是存在大量数据资源的语言,为这些语言开发基于机器学习的系统提供了可能。英语是迄今为止资源最丰富的语言。西欧的语言以及日语和汉语都有很好的报道.当然,低资源的语言是相反的,即没有或很少资源可用的语言。一些已经灭绝或濒临灭绝的语言和许多地方方言就是这种情况。实际上,有许多语言大多是口头的,但很少有书面资源(更不用说电子格式的资源);有些语言有书面文件,但甚至没有字典这样基本的东西。
为了培养良好的基于语言的系统,需要许多不同类型的资源:
许多类型的语言资源生产成本很高,这就是为什么国家/语言之间的经济不平等反映在语言资源的数量(或缺乏)上。通用属地项目是填补这一空白的一个有趣的努力。
https://datascience.stackexchange.com/questions/62868
复制相似问题