首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >python --这种数据挖掘方法会起作用吗?是个好主意吗?

python --这种数据挖掘方法会起作用吗?是个好主意吗?
EN

Data Science用户
提问于 2015-07-01 15:52:15
回答 1查看 297关注 0票数 4

我需要从一堆.csv文件中提取像文档号、日期和发票金额这样的字段,我认为这些文件被称为“非结构化文本”。我有一些标记的输入文件,并将使用NLTK和Python来设计数据提取算法。

对于第一轮分类,我计划使用tf-I加权和一个分类器来识别文档类型--有多个文件使用相同的格式。

此时,我需要我从文档中提取字段,因为它是X类型的文档。例如,我想用“最常见的数字”或“带逗号的最大数字”这样的特征来找出发票金额,但由于发票金额,我认为样本大小会比可能的特征数量小吗?(我在这里没有训练,请容忍我。)

有没有更好的方法来做第二部分?我认为第一部分应该是好的,但我不确定第二部分是否会起作用,或者我是否真的理解这个问题。总的来说,我的做法如何?我对这种事情很陌生,这是我能想到的最好的了。

EN

回答 1

Data Science用户

回答已采纳

发布于 2015-07-01 20:34:48

我不知道使用分类器是否是处理这个问题的最佳方法。如果使用regex可以很容易地提取它,那么这是最好的方法。然而,如果你想使用分类器,以下是你需要问自己的两个问题。

第一,没有标签的数据是什么样子的,你能从中设计出好的特性吗?根据您设计的特征向量的种类,分类任务的复杂性可能从非常简单到不可能。(感知器通常无法求解异或,除非为它提供输入变量的特定线性组合)。

第二,标签数据是什么样子的?它是代表整个数据集还是只包含非常特定类型的格式?如果是前者,则您的分类器将无法很好地处理未在标签数据中表示的文件。

如果您只想先测试运行一个分类器,则可以通过正则化解决具有比训练样本更多特征的问题。正则化迫使分类器的训练算法接受尽可能简单的解决方案(想想occam的剃刀)。

Python中几乎所有与机器学习相关的包都有您可以使用的正则化选项,因此可以享受。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/6301

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档