首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我应该尝试哪些算法来尝试和分类这些PDF?

我应该尝试哪些算法来尝试和分类这些PDF?
EN

Stack Overflow用户
提问于 2012-06-24 17:51:07
回答 2查看 248关注 0票数 3

我们正在爬行和下载很多公司的PDF,并试图挑选那些是年度报告。这样的报告可以从大多数公司的投资者关系页面下载。

扫描PDF并填充数据库,除其他外,包括:

  • 标题
  • 内容(全文)
  • 页计数
  • 字数
  • 方向
  • 第一行

使用这些数据,我们正在检查明显的短语,如:

  • 年度报告
  • 财务报表
  • 季度报告
  • 中期报告

然后记录这些短语和其他短语的频率。到目前为止,我们有大约350,000 PDF扫描和一套培训的4,000份文件,这些文件已经手动归类为报告或不报告。

我们正在试验许多不同的方法,包括贝叶斯分类器和加权不同的因素。我们正在用Ruby构建分类器。我的问题是:如果你在考虑这个问题,你会从哪里开始?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-06-24 18:16:11

您应该尝试一种快速和基本的方法,首先形成一个基线,这可能对您的目的来说已经足够好了。以下是一种这样的方法:

扫描所有pdfs并形成词汇表,该词汇表是发生在任何文档中的所有单词的编号列表。

从这个词汇表中为每个文档创建一个特征向量,方法是计算每个单词的单词频率(所有单词,不要费心手工挑选它们)。文档j的特征I是单词i出现在文档j中的次数。

然后按单词重要性指数表示特征,这与单词在所有文档中发生的频率正好相反。这个词在所有文件(如" The ")中出现的频率越高,它包含的信息就越少。

然后采用k均值等无监督聚类算法对文档进行聚类.您可以通过随机放置k个集群质心来初始化,将最近的文档分配给它们,然后将质心移动到分配给它们的文档的平均值,然后重复最后两个步骤直到收敛。

然后,使用一些手工标记的示例,找到包含年度报告的集群。

调整交叉验证集的簇数,直到交叉验证集的准确性高为止。

然后最后在一个等待测试集上进行测试。如果是低的话,回来吧。

票数 4
EN

Stack Overflow用户

发布于 2012-06-24 18:17:39

在几年前的论文中,我做了一些类似的事情,但用的是数字化的演讲幻灯片和试卷。我所读到的关于搜索引擎、搜索算法和确定搜索有效性的最好的书之一是:

搜索引擎:实践中的信息检索,W. Bruce Croft,Donald Metzler,Trevor Strohman

出版商网站上有一些章节样本,可以告诉你这本书是否适合你:pearsonhighered.com

希望这能有所帮助。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11179796

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档