我正在寻找参考资料(教程,书籍,学术文献)有关结构化非结构化文本的方式类似于谷歌日历快速添加按钮。
我知道这可能属于NLP类别,但我只对"Levi jeans size 32 A0b293“之类的东西感兴趣。
收件人:品牌:李维,尺码: 32,分类:牛仔裤,编码: A0b293
我想它将是词法解析和机器学习技术的某种组合。
我对语言不太了解,但如果被推送,我会更喜欢python、Matlab或C++参考资料
谢谢
发布于 2010-07-02 09:16:59
你需要提供更多关于文本来源的信息( web?用户输入?)、域名(仅仅是衣服?)、潜在的格式和词汇……
假设最坏的情况,你需要开始学习NLP。一本非常好的免费书籍是NLTK:http://www.nltk.org/book的文档。它也是对Python的一个非常好的介绍,并且该软件是免费的(适用于各种用途)。请注意: NLP很难。它并不总是有效的。有时这并不有趣。最先进的技术并不是你想象的那样。
假设有一个更好的场景(你的文本是半结构化的)--一个很好的免费工具是pyparsing。有一本书,有很多例子,结果代码非常吸引人。
我希望这能帮到你。
发布于 2010-07-02 22:27:46
可以看看Toby Segaran的“集体智慧”。我似乎记得在一章中讲述了这方面的基础知识。
发布于 2010-07-05 07:09:28
经过一些研究,我发现这个问题通常被称为信息提取,我已经积累了一些论文,并将它们存储在Mendeley Collection中
http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/
此外,正如Tai Weiss指出的,NLTK for python是一个很好的起点,本书的this一章专门介绍了信息提取。
https://stackoverflow.com/questions/3162450
复制相似问题