问python --这种数据挖掘方法会起作用吗？是个好主意吗？
EN

Data Science用户

提问于 2015-07-01 15:52:15

回答 1查看 297关注 0票数 4

我需要从一堆.csv文件中提取像文档号、日期和发票金额这样的字段，我认为这些文件被称为“非结构化文本”。我有一些标记的输入文件，并将使用NLTK和Python来设计数据提取算法。

对于第一轮分类，我计划使用tf-I加权和一个分类器来识别文档类型--有多个文件使用相同的格式。

此时，我需要我从文档中提取字段，因为它是X类型的文档。例如，我想用“最常见的数字”或“带逗号的最大数字”这样的特征来找出发票金额，但由于发票金额，我认为样本大小会比可能的特征数量小吗？(我在这里没有训练，请容忍我。)

有没有更好的方法来做第二部分？我认为第一部分应该是好的，但我不确定第二部分是否会起作用，或者我是否真的理解这个问题。总的来说，我的做法如何？我对这种事情很陌生，这是我能想到的最好的了。

回答已采纳

发布于 2015-07-01 20:34:48

我不知道使用分类器是否是处理这个问题的最佳方法。如果使用regex可以很容易地提取它，那么这是最好的方法。然而，如果你想使用分类器，以下是你需要问自己的两个问题。

第一，没有标签的数据是什么样子的，你能从中设计出好的特性吗？根据您设计的特征向量的种类，分类任务的复杂性可能从非常简单到不可能。(感知器通常无法求解异或，除非为它提供输入变量的特定线性组合)。

第二，标签数据是什么样子的？它是代表整个数据集还是只包含非常特定类型的格式？如果是前者，则您的分类器将无法很好地处理未在标签数据中表示的文件。

如果您只想先测试运行一个分类器，则可以通过正则化解决具有比训练样本更多特征的问题。正则化迫使分类器的训练算法接受尽可能简单的解决方案(想想occam的剃刀)。

Python中几乎所有与机器学习相关的包都有您可以使用的正则化选项，因此可以享受。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/6301

复制

相似问题

问python --这种数据挖掘方法会起作用吗？是个好主意吗？EN