首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >高/低资源语言:这是什么意思?

高/低资源语言:这是什么意思?
EN

Data Science用户
提问于 2019-11-08 08:33:57
回答 1查看 5.6K关注 0票数 3

在NLP中,语言通常被称为low resourcehigh resource

这些术语意味着什么?

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-11-08 12:21:59

高资源语言是存在大量数据资源的语言,为这些语言开发基于机器学习的系统提供了可能。英语是迄今为止资源最丰富的语言。西欧的语言以及日语和汉语都有很好的报道.当然,低资源的语言是相反的,即没有或很少资源可用的语言。一些已经灭绝或濒临灭绝的语言和许多地方方言就是这种情况。实际上,有许多语言大多是口头的,但很少有书面资源(更不用说电子格式的资源);有些语言有书面文件,但甚至没有字典这样基本的东西。

为了培养良好的基于语言的系统,需要许多不同类型的资源:

  • 各种类型(文档类型)的大量原始文本,如书籍、科学论文、电子邮件、社交媒体内容等。
  • 词汇、句法和语义资源,如字典、依赖树语料库、语义数据库(如WordNet)等。
  • 特定于任务的资源,例如用于机器翻译的并行语料库、各种带注释的文本(例如带有部分词性标记、命名实体等)

许多类型的语言资源生产成本很高,这就是为什么国家/语言之间的经济不平等反映在语言资源的数量(或缺乏)上。通用属地项目是填补这一空白的一个有趣的努力。

票数 6
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/62868

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档