有一部电影的名字我记不起来了。它讲的是一个狂欢节或游乐园,里面有一间恐怖的房子,还有一群十几岁的年轻人,他们一个接一个地被小丑面具杀害。我大约20年前看过这部电影,它是续集,但记不清了。(同时也忘了它的标题。)因此,我开始思考如何解决一些技术性的问题。
假设我有一个数据库,里面有故事情节和出版的每部电影的其他数据。(有点像IMDb。)我会有一个编辑字段,用户可以在其中输入一个纯文本的描述。然后,系统将开始分析此文本,以找到符合此描述的电影。
例如(不同的电影),我在编辑栏中输入了这样的内容:“一些关于一个埃及国王在马背上攻击一群印第安人的电影,但是他受了重伤,他的马在他输掉这场战斗时死了。”然后,系统应该报告2004年的电影“亚历山大”作为答案,但可能更多。(甚至允许在描述中出现一些错误。)
要创建这样一个系统,通过搜索描述来分析描述以找到匹配的记录,那么对于像这样复杂的事情,我需要什么技术呢?并不是说我现在就想建立这样的项目,而是出于好奇,如果我想要获得一些有趣的新项目的话。
(我想给那些认识我一开始提到的电影的人加分。但一次谷歌尝试--后来我自己发现了!)
顺便说一句,我不感兴趣的不是搜索引擎本身,而是通过分析描述来找到搜索引擎会理解的东西!通过这个例子电影,人类的逻辑帮助我找到了标题。(这部电影在荷兰不卖,真让人讨厌。)人的逻辑将始终是一个要求,但它是关于分析用户的输入,这是一个故事或描述的形式,可能的错误。
发布于 2009-09-13 20:35:21
你应该去看看文件分类。
几种文档分类技术
发布于 2009-09-13 20:19:31
我可以从你自己的评论中看出,谷歌是要使用的技术。但是,老实说,我认为或多或少任何搜索引擎都行。
编辑: heh,你删除了你的评论,但我记得你提到谷歌应该得到额外的分数。
Edit+:,你又提到谷歌了,但我不想删除我的第一个编辑。;-)
发布于 2009-09-13 20:27:18
纯粹的推测:一些琐碎的事情,比如在描述“埃及,印度,马战”中的每一个超过4个字母的单词。与这样的总结工作数据库进行模糊匹配?也许有一些正常化(如。国王==的领袖==皇帝?
嗯..。年轻人,女朋友,游泳池,妈妈,婚礼,这能让我们毕业吗?好吧,我想再加上一些细节“罗宾逊”就可以了。
https://stackoverflow.com/questions/1418717
复制相似问题