我正在开发一项新服务,它将查询多个报价(Groupon等)。我想破译哪个类别属于这个提议。
示例:
我得到了这个标题:“阿克奎琳娜健康博览会
我试着玩http://www.google.com/insights/search/,但这并不容易,因为它只接收7个参数(术语),有时我们有无法分离的复合词。
发布于 2011-05-27 07:49:49
有一些基于Wordnet和搜索距离的有趣方法,但是标准的方法是贝叶斯垃圾邮件过滤方法。
步骤1:构造一个标题(或标题和正文)的示例集,以及您认为它属于什么类别。你做的越大,越多样化,这套就越好。你需要有很多不同的例子(比如说,至少一个两位数的数字,但最好是几百个)。如果您需要帮助构建这个集合,您可以使用Amazon的机器土耳其语,并付钱给其他人来进行分类。
步骤2:通过CRM114 (http://crm114.sourceforge.net/ )或类似的方法运行所有示例。如果您想使用云服务,我认为Google预测API允许使用文本字段。
步骤3:对于测试,不要让分类器查看所有示例。保持一些所谓的样本外集,你可以测试你的分类器。对于它来说,分类已经看过的东西要容易得多,所以你要确保你知道它在看不见的例子上有多好。有些分类器会自动为您进行此测试。
祝好运!
https://stackoverflow.com/questions/6142844
复制相似问题