首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Hadoop MapReduce的计算语言学项目构想

使用Hadoop MapReduce的计算语言学项目构想
EN

Stack Overflow用户
提问于 2010-03-01 10:31:07
回答 4查看 2K关注 0票数 3

我需要做一个关于计算语言学课程的项目。有没有什么有趣的“语言”问题,需要足够密集的数据才能使用Hadoop map reduce。解决方案或算法应该尝试和分析,并在“语言”领域提供一些见解。但是,它应该适用于大型数据集,以便我可以使用hadoop。我知道有一个适用于hadoop的python自然语言处理工具包。

EN

回答 4

Stack Overflow用户

发布于 2010-03-01 11:11:18

如果你有一些“不寻常的”语言的大量语料库(在某种意义上,“那些执行了有限数量的计算语言学的语言”),重复一些已经为非常流行的语言(如英语,汉语,阿拉伯语,...)执行的现有计算语言学工作。是一个非常合适的项目(特别是在学术环境中,但它可能也非常适合行业--当我在IBM Research做计算语言学的时候,我从为意大利语建立一个语料库并重复[在相对较新的罗马IBM科学中心]中获得了有趣的里程数,这与约克敦高地的IBM研究团队(我曾经参与过)为英语所做的工作非常相似。

困难的工作通常是寻找/准备这样的语料库(这绝对是我当时工作中最伟大的部分,尽管IBM意大利公司全心全意地帮助我联系拥有相关数据的出版公司)。

因此,这个问题迫在眉睫,只有你才能回答:你有什么语料库,或者可以获得访问(并清理等),特别是在“不寻常的”语言?如果你能做的只有英语,使用已经很流行的语料库,那么做新奇有趣的工作的机会当然会更难,尽管可能会有一些。

顺便说一句,我想你是在严格地考虑处理“书面”文本,对吧?如果您有一个口语语料库(最好是有好的成绩单),机会将是无穷无尽的(处理口语文本的工作要少得多,例如对同一书面文本上不同母语人士的发音变体进行参数化--实际上,这些问题甚至在大学本科生的CL课程中都没有提到!)。

票数 3
EN

Stack Overflow用户

发布于 2010-10-29 07:08:11

CL中的一个计算密集型问题是从大型语料库中推断语义。其基本思想是获取大量文本,并从它们的分布中推断出单词之间的语义关系(同义词、反义词、下位词、上位词等),即它们与哪些单词一起出现或靠近哪些单词。

这涉及大量数据预处理,然后可能涉及许多最近邻搜索和N x N比较,这非常适合于MapReduce风格的并行化。

请看一下本教程:

http://wordspace.collocations.de/doku.php/course:acl2010:start

票数 3
EN

Stack Overflow用户

发布于 2010-03-01 22:30:39

从BioMed中心发布的60K OA论文中下载3亿字。尝试发现命题态度和相关的情感结构。重点是,生物医学文献充满了模糊限制语和相关的结构,因为很难对生活世界及其生物-它们的形式和功能以及遗传学和生物化学-进行扁平的陈述性陈述。

我对Hadoop的感觉是,它是一个值得考虑的工具,但要在完成设定目标的重要任务后再考虑。你的目标、策略和数据应该决定你如何进行计算。在寻找研究的钉子方法时要当心锤子。

这是我的实验室正在努力研究的一部分。

  • 鲍勃·富特雷尔

BioNLP.org

东北大学

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2353582

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档