文章/答案/技术大牛

发布

社区首页 >问答首页 >给出几十个单词的列表，我如何从数百个文本的语料库中找到最佳匹配的部分？

问给出几十个单词的列表，我如何从数百个文本的语料库中找到最佳匹配的部分？
EN

Stack Overflow用户

提问于 2013-04-01 13:42:51

回答 1查看 106关注 0票数 2

比方说，我有一个250个单词的列表，它可能是由独特的词条组成的，或者是所有语法形式的单词，或者是特定语法形式的各种单词(例如，过去时中的所有词)。我还有一个文本语料库，可以方便地分成一个数据库，每个部分大概有150个单词(也许我想在将来动态地确定这些部分，但我现在就把它留在这里)。

我的问题是:从语料库中提取包含我250个单词中大部分的部分的有用方法是什么？

我看过一些全文搜索引擎，比如Lucene，但我不确定它们是否适合处理长查询列表。Bloom过滤器似乎也很有趣。我对Perl感到非常满意，但是如果Ruby或Python有什么特别之处，我很乐意学习。性能在这一点上不是一个问题。

这种程序的用例是在语言教学中，在语言教学中，最好有各种各样的单词列表来反映不同程度的学习者知识，并迅速从原始来源中找到合适的文本或示例。而且，我只是好奇，知道如何做到这一点。

回答已采纳

发布于 2013-04-02 08:40:40

实际上，我正在寻找的是文档比较。我找到在PostgreSQL中，根据文本与给定文档的相似性对文本排序的一种方法了。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15744640

复制

相似问题

问给出几十个单词的列表，我如何从数百个文本的语料库中找到最佳匹配的部分？EN