我很乐意找到一些主题,谢谢。
发布于 2012-03-11 06:13:35
MergeSort是一个很棒的/简单的入门工具。你也可以使用generating word counts for all words in a file。公共领域书籍的Project Gutenberg库是一个很好的数据源(您总是可以将它们中的几个连接在一起)。
如果你想要一些更高级的东西,但是和字数统计一样,你可以编写一个非常简单的分布式拼写检查器。Peter Norvig是一个用Python编写的很棒的拼写检查器的simple demonstration。一个不错的做法是将此算法扩展为以分布式方式对文件进行操作。
发布于 2012-03-11 09:37:14
您有几个项目here
这里有一些不错的、有趣的小型hadoop项目示例。每件事都描述得很好,另外你可以找到源代码和所有需要的理论。
https://stackoverflow.com/questions/9650596
复制相似问题