自大型web应用出现以来,快速、准确地搜索数据成为web应用中最重要的问题之一。有一段时间,我一直在使用Lucene.NET,它是Lucene项目的一个C#端口。
我还使用Zend框架的Lucene API使用PHP进行工作,这就引出了我的问题。为了提供良好的索引,我们大多数时候需要执行一些NLP工具,如标记、引理以及更多的工具,问题是:
你知道有什么好的使用PHP的NLP编程框架/工具集吗?
PS:我非常清楚Lucene的Zend,但是正确地索引数据不仅仅是在Lucene中存储和依赖,您需要执行一些额外的任务,如上面的任务。
发布于 2010-12-18 12:56:49
我建议您看看索尔,它是Lucene的最佳实践实现。Solr使用了一个基于REST的API,它还有一个非常好的PHP客户端。这将允许您利用Lucene的功能,而无需执行任何低级编程来获得所需的NLP能力。另外,您可能希望获取Solr的主干版本,因为NLP开发现在非常活跃,而且每天都会添加新功能。
发布于 2010-12-16 15:20:47
Zend拥有lucene到PHP的完整端口。见docs 这里。
发布于 2011-03-14 16:56:11
好像你在找几个月前我搜索过的东西:D.我正在使用Solr运行一个基于php/zend的项目(通过php-solr-client lib),到目前为止,我还没有在php中为高级NLP找到任何东西。对于基本内容,正如每个人所提到的,您可以使用Solr (词干、标记云/短语标记云、标记化等等),还有一些基本但有用的文本处理php库(没有什么特别的东西,最好还是依靠Solr本身).但是,如果您正在寻找更多的算法/语义/情感NLP分析,我建议您从PHP转到Java中,因为有更多的库可以在这方面帮助您(比如OpenNLP)。如果你想要的是有价值的东西,你可能想看看Mahout:
http://www.lucidimagination.com/blog/2010/03/16/integrating-apache-mahout-with-apache-lucene-and-solr-part-i-of-3/
https://stackoverflow.com/questions/4457830
复制相似问题