我正在寻找一个现有的库来总结或解释内容(我的目标是博客文章)--有使用现有自然语言处理库的经验吗?
我对各种语言都很开放,所以我对语言的能力和准确性更感兴趣。
发布于 2008-10-10 22:30:11
有一些关于Grok的讨论。这现在被支持为OpenCCG,并且也将在OpenNLP中重新实现。
你可以在http://openccg.sourceforge.net/上找到OpenCCG。我还建议在这里提供Curran和Clark CCG解析器:http://svn.ask.it.usyd.edu.au/trac/candc/wiki
基本上,对于释义,你需要做的是写一些东西,首先解析博客文章的句子,提取这些文章的语义,然后在构成相同语义的单词空间中搜索,然后选择一个与当前句子不匹配的单词。这将需要很长时间,而且可能没有多大意义。不要忘记,为了做到这一点,您将需要近乎完美的回指解析和获取语篇级别推理的能力。
如果您只是想制作没有机器可识别的重复内容的博客帖子,则始终可以只使用主题和焦点转换以及WordNet同义词。肯定有一些网站利用AdWords赚钱,以前就是这样做的。
发布于 2008-10-09 14:25:53
我认为他想通过自动解释这个系统正在监控的博客来生成博客帖子。
如果你能将2到10篇相似但来源不同的博客文章组合在一起,然后自动做一个释义的“真实”摘要(一篇博客文章的大小),这将是非常有趣的。
这对Homeworks来说也是很好的。不幸的是,这不是那么容易做到的。
我能看到的唯一方法是能够将每个句子分解成“意义”,然后随机改变句子结构和一些保留意义的单词。
这些句子的意思是一样的:
写一个程序将这些句子中的一个转换成其他句子是不容易的,这些都是简单的句子,来自博客的真正句子要复杂得多。
发布于 2008-08-24 21:14:56
你进入了真正远离AI类型的领域。我主要使用Attempto Controlled English (参见:http://attempto.ifi.uzh.ch/site/)在文本到机器知识的转换方面做了大量的工作,它是一种自然语言(英语),完全可以通过计算机处理成几个不同的本体,例如OWLDL。
看起来我们这样做太过分了.
有没有理由不把你的博客帖子的前几句话,然后在总结中加上一个省略号?
https://stackoverflow.com/questions/25332
复制相似问题