文章/答案/技术大牛

发布

社区首页 >问答首页 >使用Hadoop MapReduce的计算语言学项目构想

问使用Hadoop MapReduce的计算语言学项目构想
EN

Stack Overflow用户

提问于 2010-03-01 10:31:07

回答 4查看 2K关注 0票数 3

我需要做一个关于计算语言学课程的项目。有没有什么有趣的“语言”问题，需要足够密集的数据才能使用Hadoop map reduce。解决方案或算法应该尝试和分析，并在“语言”领域提供一些见解。但是，它应该适用于大型数据集，以便我可以使用hadoop。我知道有一个适用于hadoop的python自然语言处理工具包。

hadoop

mapreduce

nlp

回答 4

Stack Overflow用户

发布于 2010-03-01 11:11:18

如果你有一些“不寻常的”语言的大量语料库(在某种意义上，“那些执行了有限数量的计算语言学的语言”)，重复一些已经为非常流行的语言(如英语，汉语，阿拉伯语，...)执行的现有计算语言学工作。是一个非常合适的项目(特别是在学术环境中，但它可能也非常适合行业--当我在IBM Research做计算语言学的时候，我从为意大利语建立一个语料库并重复[在相对较新的罗马IBM科学中心]中获得了有趣的里程数，这与约克敦高地的IBM研究团队(我曾经参与过)为英语所做的工作非常相似。

困难的工作通常是寻找/准备这样的语料库(这绝对是我当时工作中最伟大的部分，尽管IBM意大利公司全心全意地帮助我联系拥有相关数据的出版公司)。

因此，这个问题迫在眉睫，只有你才能回答:你有什么语料库，或者可以获得访问(并清理等)，特别是在“不寻常的”语言？如果你能做的只有英语，使用已经很流行的语料库，那么做新奇有趣的工作的机会当然会更难，尽管可能会有一些。

顺便说一句，我想你是在严格地考虑处理“书面”文本，对吧？如果您有一个口语语料库(最好是有好的成绩单)，机会将是无穷无尽的(处理口语文本的工作要少得多，例如对同一书面文本上不同母语人士的发音变体进行参数化--实际上，这些问题甚至在大学本科生的CL课程中都没有提到！)。

票数 3

Stack Overflow用户

发布于 2010-10-29 07:08:11

CL中的一个计算密集型问题是从大型语料库中推断语义。其基本思想是获取大量文本，并从它们的分布中推断出单词之间的语义关系(同义词、反义词、下位词、上位词等)，即它们与哪些单词一起出现或靠近哪些单词。

这涉及大量数据预处理，然后可能涉及许多最近邻搜索和N x N比较，这非常适合于MapReduce风格的并行化。

请看一下本教程：

http://wordspace.collocations.de/doku.php/course:acl2010:start

票数 3

Stack Overflow用户

发布于 2010-03-01 22:30:39

从BioMed中心发布的60K OA论文中下载3亿字。尝试发现命题态度和相关的情感结构。重点是，生物医学文献充满了模糊限制语和相关的结构，因为很难对生活世界及其生物-它们的形式和功能以及遗传学和生物化学-进行扁平的陈述性陈述。

我对Hadoop的感觉是，它是一个值得考虑的工具，但要在完成设定目标的重要任务后再考虑。你的目标、策略和数据应该决定你如何进行计算。在寻找研究的钉子方法时要当心锤子。

这是我的实验室正在努力研究的一部分。

鲍勃·富特雷尔

BioNLP.org

东北大学

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/2353582

复制

相似问题

问使用Hadoop MapReduce的计算语言学项目构想
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Hadoop MapReduce的计算语言学项目构想EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Hadoop MapReduce的计算语言学项目构想
EN