比方说,我有一个250个单词的列表,它可能是由独特的词条组成的,或者是所有语法形式的单词,或者是特定语法形式的各种单词(例如,过去时中的所有词)。我还有一个文本语料库,可以方便地分成一个数据库,每个部分大概有150个单词(也许我想在将来动态地确定这些部分,但我现在就把它留在这里)。
我的问题是:从语料库中提取包含我250个单词中大部分的部分的有用方法是什么?
我看过一些全文搜索引擎,比如Lucene,但我不确定它们是否适合处理长查询列表。Bloom过滤器似乎也很有趣。我对Perl感到非常满意,但是如果Ruby或Python有什么特别之处,我很乐意学习。性能在这一点上不是一个问题。
这种程序的用例是在语言教学中,在语言教学中,最好有各种各样的单词列表来反映不同程度的学习者知识,并迅速从原始来源中找到合适的文本或示例。而且,我只是好奇,知道如何做到这一点。
发布于 2013-04-02 08:40:40
实际上,我正在寻找的是文档比较。我找到在PostgreSQL中,根据文本与给定文档的相似性对文本排序的一种方法了。
https://stackoverflow.com/questions/15744640
复制相似问题