我正在向M.Sc阅读。在计算机科学和刚刚完成的第一年的源代码。(这是一个两年的课程)。很快我就必须为M.Sc提交一份提案。项目。我选择了以下主题。
“机器学习在信息检索系统中对文档排序的适用性”。研究人员一直在使用各种机器学习算法对文档进行排序。因此,作为该项目的第一阶段,我将做一个完整的文献调查,并找出当前方法的优缺点。在项目的第二阶段,我将提出一个新的(修改后的)算法,以克服当前方法的局限性。
实际上我的问题是,这种类型的项目是否适合作为M.Sc。项目?此外,如果有人在信息检索领域有一些有趣的想法,可以和我分享这些想法吗?
谢谢
发布于 2010-10-06 06:22:37
在任何信息检索系统中,排名始终是最难的部分。我认为这是一个非常好的主题,但你必须注意--尽快--定义工作的范围。也许你不能开发一个新的IR引擎,而是基于apache lucene构建一个原型。
目前有大量的数据集,包括stackoverflow数据转储,它为你提供了所有你需要的信息,为你的机器学习排名算法定义一个丰富的特征向量(点数,时间,你可以挖掘上一个问题的主题等,标签的流行度)。在这部分工作中,你可以,例如,对特征的类型进行分类(例如,用户特定的,语义特征-标题中的软件名称),并执行一系列实验,以了解哪些特征最重要,哪些特征不适用于给定的数据集。
这样的项目的第二个方向可以是如何有效地执行学习。背后的原因是web或社区论坛中的数据量以及论坛中的更改(如果您采用社区特定的功能,这将非常重要),例如,技术更改、新软件发布等。
还有许多其他与搜索和机器学习相关的主题。最好的想法是在scholar.google.com上搜索最近关于排名、机器学习和搜索的调查论文,以了解最新的技术。下一步就是和你的MSc主管谈谈。
祝好运!
发布于 2010-10-05 17:35:57
你说的每一件事都是好的,应该做的,但你忘记了最重要的部分:
通过良好的实验和一些统计数据(p值,置信区间),证明您的算法比其他算法更好和/或更快。
如果你这样做,并让人们相信你的算法是有用的,你肯定不会失败:)
https://stackoverflow.com/questions/3820707
复制相似问题