首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >非结构化文本到结构化数据

非结构化文本到结构化数据
EN

Stack Overflow用户
提问于 2010-07-02 07:48:54
回答 4查看 7.4K关注 0票数 8

我正在寻找参考资料(教程,书籍,学术文献)有关结构化非结构化文本的方式类似于谷歌日历快速添加按钮。

我知道这可能属于NLP类别,但我只对"Levi jeans size 32 A0b293“之类的东西感兴趣。

收件人:品牌:李维,尺码: 32,分类:牛仔裤,编码: A0b293

我想它将是词法解析和机器学习技术的某种组合。

我对语言不太了解,但如果被推送,我会更喜欢python、Matlab或C++参考资料

谢谢

EN

回答 4

Stack Overflow用户

发布于 2010-07-02 09:16:59

你需要提供更多关于文本来源的信息( web?用户输入?)、域名(仅仅是衣服?)、潜在的格式和词汇……

假设最坏的情况,你需要开始学习NLP。一本非常好的免费书籍是NLTK:http://www.nltk.org/book的文档。它也是对Python的一个非常好的介绍,并且该软件是免费的(适用于各种用途)。请注意: NLP很难。它并不总是有效的。有时这并不有趣。最先进的技术并不是你想象的那样。

假设有一个更好的场景(你的文本是半结构化的)--一个很好的免费工具是pyparsing。有一本书,有很多例子,结果代码非常吸引人。

我希望这能帮到你。

票数 7
EN

Stack Overflow用户

发布于 2010-07-02 22:27:46

可以看看Toby Segaran的“集体智慧”。我似乎记得在一章中讲述了这方面的基础知识。

票数 1
EN

Stack Overflow用户

发布于 2010-07-05 07:09:28

经过一些研究,我发现这个问题通常被称为信息提取,我已经积累了一些论文,并将它们存储在Mendeley Collection中

http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/

此外,正如Tai Weiss指出的,NLTK for python是一个很好的起点,本书的this一章专门介绍了信息提取。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3162450

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档