以下面的链接为例:http://www.yelp.com/biz/chef-yu-new-york。
在“评论要闻”一节中,有三个短语(辛辣的鸡肉丁,欢乐时光,午餐特色菜)是根据用户提交的评论突出显示的。很明显,这些是最常出现的短语,或者是经常出现的最长的短语,或者是其他一些逻辑。
他们的官方解释是:
在
的评论中,叶利浦经常提到下面的链接短语。这不是什么老生常谈,它们也是我们Yelp所确定的独特而快速的描述这一业务的方法。单击任何短语,查看提到它的所有评论。
我的问题是,他们用什么来挖掘文本输入来获取这些数据点?是基于Lempel Ziv的算法,还是某种映射约简算法?我不是个电脑专业的学生,所以我可能错过了一些基本的东西。希望得到一些帮助、理论等。
谢谢!
发布于 2013-01-08 17:31:46
对于Yelp使用的确切算法,我没有任何见解,但这是自然语言处理中常见的问题。本质上,您希望提取最相关的搭配 (http://en.wikipedia.org/wiki/Collocation)。
要做到这一点,一个简单的方法是提取具有最高PMI (点态互信息)的n克列表。这个这样的问题解释了如何使用Python和nltk库来完成这个任务:
How to extract common / significant phrases from a series of text entries
发布于 2011-12-30 00:48:05
Lempel-Ziv是一种数据压缩算法,而map-约简是一种数据处理技术.前者可能不涉及,后者一般是有用的,但在这里不相关。
在不知道Yelp代码的细节的情况下,我们不可能确定地说,但是他们的“评论亮点”很可能仅仅是基于对这个业务的评论中出现的所有短语的列表,然后显示那些在评论中比其他业务更常见的词组。一些自然语言处理可能会被涉及,以确保它选择名词短语。
https://stackoverflow.com/questions/8674926
复制相似问题