我们正在爬行和下载很多公司的PDF,并试图挑选那些是年度报告。这样的报告可以从大多数公司的投资者关系页面下载。
扫描PDF并填充数据库,除其他外,包括:
使用这些数据,我们正在检查明显的短语,如:
然后记录这些短语和其他短语的频率。到目前为止,我们有大约350,000 PDF扫描和一套培训的4,000份文件,这些文件已经手动归类为报告或不报告。
我们正在试验许多不同的方法,包括贝叶斯分类器和加权不同的因素。我们正在用Ruby构建分类器。我的问题是:如果你在考虑这个问题,你会从哪里开始?
发布于 2012-06-24 18:16:11
您应该尝试一种快速和基本的方法,首先形成一个基线,这可能对您的目的来说已经足够好了。以下是一种这样的方法:
扫描所有pdfs并形成词汇表,该词汇表是发生在任何文档中的所有单词的编号列表。
从这个词汇表中为每个文档创建一个特征向量,方法是计算每个单词的单词频率(所有单词,不要费心手工挑选它们)。文档j的特征I是单词i出现在文档j中的次数。
然后按单词重要性指数表示特征,这与单词在所有文档中发生的频率正好相反。这个词在所有文件(如" The ")中出现的频率越高,它包含的信息就越少。
然后采用k均值等无监督聚类算法对文档进行聚类.您可以通过随机放置k个集群质心来初始化,将最近的文档分配给它们,然后将质心移动到分配给它们的文档的平均值,然后重复最后两个步骤直到收敛。
然后,使用一些手工标记的示例,找到包含年度报告的集群。
调整交叉验证集的簇数,直到交叉验证集的准确性高为止。
然后最后在一个等待测试集上进行测试。如果是低的话,回来吧。
发布于 2012-06-24 18:17:39
在几年前的论文中,我做了一些类似的事情,但用的是数字化的演讲幻灯片和试卷。我所读到的关于搜索引擎、搜索算法和确定搜索有效性的最好的书之一是:
搜索引擎:实践中的信息检索,W. Bruce Croft,Donald Metzler,Trevor Strohman
出版商网站上有一些章节样本,可以告诉你这本书是否适合你:pearsonhighered.com
希望这能有所帮助。
https://stackoverflow.com/questions/11179796
复制相似问题