我非常感谢你对解决以下问题的最佳方法的想法。我正在使用一个汽车分类列表的例子,这是类似的性质给出一个想法。
问题:从给定的文本.中提取数据元组
以下是数据的一些特点。
预期输出应以(年份、制造、模型、功能)的形式进行。所以输出应该看起来像
1 -> (2009年,福特,融合,东南)
2 -> (1997年,福特,金牛座,货车)
3 -> (2000年,三菱,幻影,DE)
4 -> (2007年,福特,远征,EL有限公司)
5 -> (本田,雅阁,前)
……
……
原始标题数据:
1 -> 2009福特融合SE -7000美元
2 -> 1997福特金牛座货车-800美元(圣何塞东部)
3 -> '00三菱幻影DE -2499美元(萨拉托加)图片
4 -> 2007福特远征有限公司- $7800 (x)
5 ->本田雅阁低里程-2800美元(都柏林/普莱桑顿/利弗莫尔)
6 -> 2004本田ODASSEYLX68K英里-10800美元(丹维尔/圣拉蒙)
7 -> 93林肯马克-2000美元(奥克兰东部)图片
8 -> #######2006雷克萨斯GS 430黑色在黑色114 pic ####### -19700美元(圣拉斐尔)图片
9 -> 2004奥迪A4 1.8T FWD -8900美元(萨克拉门托)
10 -> #######2003 GMC C2500 HD前出租车6.0 V8 EFI WHITE 4X4 ####### -10575美元(圣拉斐尔)图片
11 -> 1990丰田花冠运行良好!气体保护装置!5 5SPEED干净!REG 2011 O.B.O .-1600美元(海沃德/卡斯特罗谷)
12 ->本田雅阁2000 -4900美元(都柏林/普莱桑顿/利弗莫尔)
13 -> 2009雪佛兰Silverado LT船员驾驶室-23900美元(都柏林/普莱森顿/利弗莫尔)
14 -> 2010 Acura V6 -技术-29900美元(都柏林/普莱桑顿/利弗莫尔)
15 -> 2003日产Altima -1830美元(SF) pic
可能的选择:
我想弄清楚的是,对于工作来说,RegEx太复杂了,而文本分类器是否太过了呢?
如果选择使用文本分类器,那么您认为最容易实现的是什么。
提前感谢您的帮助。
发布于 2011-06-13 00:54:10
这是一个研究得很好的问题,叫做信息提取。做你想做的事并不是直截了当的,也不像你让它听起来那么简单(即机器学习并不过分)。有几种技术,你应该阅读一下研究领域的概况。
发布于 2011-06-14 08:27:26
我认为,如果您已经对数据进行了注释并列出了与每个字段相关的单词,那么ARX或Phoebus系统可能适合您的需要。他们的方法是信息提取和信息集成的混合。
https://stackoverflow.com/questions/6323740
复制相似问题