首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >帮助:从文本中提取数据元组..。Regex还是机器学习?

帮助:从文本中提取数据元组..。Regex还是机器学习?
EN

Stack Overflow用户
提问于 2011-06-12 18:28:29
回答 6查看 2.8K关注 0票数 5

我非常感谢你对解决以下问题的最佳方法的想法。我正在使用一个汽车分类列表的例子,这是类似的性质给出一个想法。

问题:从给定的文本.中提取数据元组

以下是数据的一些特点。

  1. 文本中的词汇(词)仅限于特定的领域。让我们假设最多100到200个单词。
  2. 需要解析的文本是一个标题,如下面所示的汽车广告数据。因此,每个记录对应于一个元组(行)。
  3. 在某些情况下,可能缺少一些属性。因此,例如,在原始数据第5行以下的年份是缺少的。
  4. 有些词合在一起。比如“低英里”。
  5. 现有历史数据=10 000条记录
  6. 新输入数据量=每周1000至1500条记录

预期输出应以(年份、制造、模型、功能)的形式进行。所以输出应该看起来像

1 -> (2009年,福特,融合,东南)

2 -> (1997年,福特,金牛座,货车)

3 -> (2000年,三菱,幻影,DE)

4 -> (2007年,福特,远征,EL有限公司)

5 -> (本田,雅阁,前)

……

……

原始标题数据:

1 -> 2009福特融合SE -7000美元

2 -> 1997福特金牛座货车-800美元(圣何塞东部)

3 -> '00三菱幻影DE -2499美元(萨拉托加)图片

4 -> 2007福特远征有限公司- $7800 (x)

5 ->本田雅阁低里程-2800美元(都柏林/普莱桑顿/利弗莫尔)

6 -> 2004本田ODASSEYLX68K英里-10800美元(丹维尔/圣拉蒙)

7 -> 93林肯马克-2000美元(奥克兰东部)图片

8 -> #######2006雷克萨斯GS 430黑色在黑色114 pic ####### -19700美元(圣拉斐尔)图片

9 -> 2004奥迪A4 1.8T FWD -8900美元(萨克拉门托)

10 -> #######2003 GMC C2500 HD前出租车6.0 V8 EFI WHITE 4X4 ####### -10575美元(圣拉斐尔)图片

11 -> 1990丰田花冠运行良好!气体保护装置!5 5SPEED干净!REG 2011 O.B.O .-1600美元(海沃德/卡斯特罗谷)

12 ->本田雅阁2000 -4900美元(都柏林/普莱桑顿/利弗莫尔)

13 -> 2009雪佛兰Silverado LT船员驾驶室-23900美元(都柏林/普莱森顿/利弗莫尔)

14 -> 2010 Acura V6 -技术-29900美元(都柏林/普莱桑顿/利弗莫尔)

15 -> 2003日产Altima -1830美元(SF) pic

可能的选择:

  1. 机器学习文本分类器(朴素贝叶斯等)
  2. 正则表达式

我想弄清楚的是,对于工作来说,RegEx太复杂了,而文本分类器是否太过了呢?

如果选择使用文本分类器,那么您认为最容易实现的是什么。

提前感谢您的帮助。

EN

回答 6

Stack Overflow用户

回答已采纳

发布于 2011-06-13 00:54:10

这是一个研究得很好的问题,叫做信息提取。做你想做的事并不是直截了当的,也不像你让它听起来那么简单(即机器学习并不过分)。有几种技术,你应该阅读一下研究领域的概况。

票数 4
EN

Stack Overflow用户

发布于 2011-06-13 07:17:41

查看 IE库以编写提取rule<,我认为它对您的问题最有效。还有如何创建快速字典匹配的示例。

票数 3
EN

Stack Overflow用户

发布于 2011-06-14 08:27:26

我认为,如果您已经对数据进行了注释并列出了与每个字段相关的单词,那么ARX或Phoebus系统可能适合您的需要。他们的方法是信息提取和信息集成的混合。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6323740

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档