首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >给出几十个单词的列表,我如何从数百个文本的语料库中找到最佳匹配的部分?

给出几十个单词的列表,我如何从数百个文本的语料库中找到最佳匹配的部分?
EN

Stack Overflow用户
提问于 2013-04-01 13:42:51
回答 1查看 106关注 0票数 2

比方说,我有一个250个单词的列表,它可能是由独特的词条组成的,或者是所有语法形式的单词,或者是特定语法形式的各种单词(例如,过去时中的所有词)。我还有一个文本语料库,可以方便地分成一个数据库,每个部分大概有150个单词(也许我想在将来动态地确定这些部分,但我现在就把它留在这里)。

我的问题是:从语料库中提取包含我250个单词中大部分的部分的有用方法是什么?

我看过一些全文搜索引擎,比如Lucene,但我不确定它们是否适合处理长查询列表。Bloom过滤器似乎也很有趣。我对Perl感到非常满意,但是如果Ruby或Python有什么特别之处,我很乐意学习。性能在这一点上不是一个问题。

这种程序的用例是在语言教学中,在语言教学中,最好有各种各样的单词列表来反映不同程度的学习者知识,并迅速从原始来源中找到合适的文本或示例。而且,我只是好奇,知道如何做到这一点。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-04-02 08:40:40

实际上,我正在寻找的是文档比较。我找到在PostgreSQL中,根据文本与给定文档的相似性对文本排序的一种方法了。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/15744640

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档