文章/答案/技术大牛

发布

社区首页 >问答首页 >帮助:从文本中提取数据元组..。Regex还是机器学习？

问帮助:从文本中提取数据元组..。Regex还是机器学习？
EN

Stack Overflow用户

提问于 2011-06-12 18:28:29

回答 6查看 2.8K关注 0票数 5

我非常感谢你对解决以下问题的最佳方法的想法。我正在使用一个汽车分类列表的例子，这是类似的性质给出一个想法。

问题:从给定的文本.中提取数据元组

以下是数据的一些特点。

文本中的词汇(词)仅限于特定的领域。让我们假设最多100到200个单词。
需要解析的文本是一个标题，如下面所示的汽车广告数据。因此，每个记录对应于一个元组(行)。
在某些情况下，可能缺少一些属性。因此，例如，在原始数据第5行以下的年份是缺少的。
有些词合在一起。比如“低英里”。
现有历史数据=10 000条记录
新输入数据量=每周1000至1500条记录

预期输出应以(年份、制造、模型、功能)的形式进行。所以输出应该看起来像

1 -> (2009年，福特，融合，东南)

2 -> (1997年，福特，金牛座，货车)

3 -> (2000年，三菱，幻影，DE)

4 -> (2007年，福特，远征，EL有限公司)

5 -> (本田，雅阁，前)

……

原始标题数据：

1 -> 2009福特融合SE -7000美元

2 -> 1997福特金牛座货车-800美元(圣何塞东部)

3 -> '00三菱幻影DE -2499美元(萨拉托加)图片

4 -> 2007福特远征有限公司- $7800 (x)

5 ->本田雅阁低里程-2800美元(都柏林/普莱桑顿/利弗莫尔)

6 -> 2004本田ODASSEYLX68K英里-10800美元(丹维尔/圣拉蒙)

7 -> 93林肯马克-2000美元(奥克兰东部)图片

8 -> #######2006雷克萨斯GS 430黑色在黑色114 pic ####### -19700美元(圣拉斐尔)图片

9 -> 2004奥迪A4 1.8T FWD -8900美元(萨克拉门托)

10 -> #######2003 GMC C2500 HD前出租车6.0 V8 EFI WHITE 4X4 ####### -10575美元(圣拉斐尔)图片

11 -> 1990丰田花冠运行良好！气体保护装置！5 5SPEED干净！REG 2011 O.B.O .-1600美元(海沃德/卡斯特罗谷)

12 ->本田雅阁2000 -4900美元(都柏林/普莱桑顿/利弗莫尔)

13 -> 2009雪佛兰Silverado LT船员驾驶室-23900美元(都柏林/普莱森顿/利弗莫尔)

14 -> 2010 Acura V6 -技术-29900美元(都柏林/普莱桑顿/利弗莫尔)

15 -> 2003日产Altima -1830美元(SF) pic

可能的选择：

机器学习文本分类器(朴素贝叶斯等)
正则表达式

我想弄清楚的是，对于工作来说，RegEx太复杂了，而文本分类器是否太过了呢？

如果选择使用文本分类器，那么您认为最容易实现的是什么。

提前感谢您的帮助。

regex

nlp

machine-learning

classification

data-extraction

回答 6

Stack Overflow用户

回答已采纳

发布于 2011-06-13 00:54:10

这是一个研究得很好的问题，叫做信息提取。做你想做的事并不是直截了当的，也不像你让它听起来那么简单(即机器学习并不过分)。有几种技术，你应该阅读一下研究领域的概况。

票数 4

Stack Overflow用户

发布于 2011-06-13 07:17:41

查看这 IE库以编写提取rule<，我认为它对您的问题最有效。还有如何创建快速字典匹配的示例。

票数 3

Stack Overflow用户

发布于 2011-06-14 08:27:26

我认为，如果您已经对数据进行了注释并列出了与每个字段相关的单词，那么ARX或Phoebus系统可能适合您的需要。他们的方法是信息提取和信息集成的混合。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6323740

复制

相似问题

问帮助:从文本中提取数据元组..。Regex还是机器学习？
EN

回答 6

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问帮助:从文本中提取数据元组..。Regex还是机器学习？EN

回答 6

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问帮助:从文本中提取数据元组..。Regex还是机器学习？
EN