This answer展示了一个使用解析器生成器在文本中查找一些感兴趣的模式的很好的示例。在这个例子中,它是产品价格。
有没有人知道生成给定训练示例(文档+信息)的语法的工具?我找到了几张纸,但没有工具。我查阅了一些ANTLR文档,但它处理的是语法;“识别器”接受语法作为输入,而不是训练示例。
发布于 2011-03-30 00:07:31
这是一个机器学习问题。你最多只能得到一个近似值。但我认为没有人做得很好,更不用说发布一个工具了。(我积极地跟踪人们为计算机语言构建语法所做的工作,这个想法已经被提出了很多次,但我还没有看到一个有用的实现)。
问题是,对于任何固定的示例集,都有大量可能的语法。很容易构建一个简单的语法:对于固定的示例集,只需提出一个语法,该语法具有一个识别每个示例的规则。这是可行的,但几乎没有什么帮助。现在的问题是,你可以用多少种方法来概括这一点,哪一种是最好的?事实上,您无法知道,因为您的下一个新示例在结构方面可能会完全出人意料。(理论定义:一种语言是组成它的一组句子)。
我们甚至还没有讨论过学习语言词位这个更简单的问题。您打算如何了解浮点数的合法字符串是什么?
发布于 2011-05-23 19:52:37
NLTK就是这样做的一个工具。我强烈推荐它,the O'Reilly book that covers it可以在网上免费获得。有用于解析、学习语法等的工具。唯一的缺点是它主要是一个研究而不是生产工具,所以重点不在性能上。
NLTK能够从标记的训练样本中构建语法,这正是您所要问的。看看那些很棒的文档和书吧。(我上一次使用它的经验是,它可以通过Jython在JVM上运行,没有任何问题。)
https://stackoverflow.com/questions/5475408
复制相似问题