文章/答案/技术大牛

发布

社区首页 >问答首页 >我应该尝试哪些算法来尝试和分类这些PDF？

问我应该尝试哪些算法来尝试和分类这些PDF？
EN

Stack Overflow用户

提问于 2012-06-24 17:51:07

回答 2查看 248关注 0票数 3

我们正在爬行和下载很多公司的PDF，并试图挑选那些是年度报告。这样的报告可以从大多数公司的投资者关系页面下载。

扫描PDF并填充数据库，除其他外，包括：

标题
内容(全文)
页计数
字数
方向
第一行

使用这些数据，我们正在检查明显的短语，如：

年度报告
财务报表
季度报告
中期报告

然后记录这些短语和其他短语的频率。到目前为止，我们有大约350,000 PDF扫描和一套培训的4,000份文件，这些文件已经手动归类为报告或不报告。

我们正在试验许多不同的方法，包括贝叶斯分类器和加权不同的因素。我们正在用Ruby构建分类器。我的问题是:如果你在考虑这个问题，你会从哪里开始？

ruby

algorithm

classification

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-06-24 18:16:11

您应该尝试一种快速和基本的方法，首先形成一个基线，这可能对您的目的来说已经足够好了。以下是一种这样的方法：

扫描所有pdfs并形成词汇表，该词汇表是发生在任何文档中的所有单词的编号列表。

从这个词汇表中为每个文档创建一个特征向量，方法是计算每个单词的单词频率(所有单词，不要费心手工挑选它们)。文档j的特征I是单词i出现在文档j中的次数。

然后按单词重要性指数表示特征，这与单词在所有文档中发生的频率正好相反。这个词在所有文件(如" The ")中出现的频率越高，它包含的信息就越少。

然后采用k均值等无监督聚类算法对文档进行聚类.您可以通过随机放置k个集群质心来初始化，将最近的文档分配给它们，然后将质心移动到分配给它们的文档的平均值，然后重复最后两个步骤直到收敛。

然后，使用一些手工标记的示例，找到包含年度报告的集群。

调整交叉验证集的簇数，直到交叉验证集的准确性高为止。

然后最后在一个等待测试集上进行测试。如果是低的话，回来吧。

票数 4

Stack Overflow用户

发布于 2012-06-24 18:17:39

在几年前的论文中，我做了一些类似的事情，但用的是数字化的演讲幻灯片和试卷。我所读到的关于搜索引擎、搜索算法和确定搜索有效性的最好的书之一是：

搜索引擎:实践中的信息检索，W. Bruce Croft，Donald Metzler，Trevor Strohman

出版商网站上有一些章节样本，可以告诉你这本书是否适合你：pearsonhighered.com

希望这能有所帮助。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/11179796

复制

相似问题

问我应该尝试哪些算法来尝试和分类这些PDF？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我应该尝试哪些算法来尝试和分类这些PDF？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我应该尝试哪些算法来尝试和分类这些PDF？
EN