首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >MADlib在词频上应用`cosine_similarity`

MADlib在词频上应用`cosine_similarity`
EN

Database Administration用户
提问于 2019-09-24 08:19:32
回答 1查看 170关注 0票数 0

我正在做一个小的主题建模项目,我偶然发现了在MADlibPostgreSQL中开发它的想法。

MADlib提供了这个术语频率函数,它将我的文档转换成,良好的术语频率。

是否还有其他实用函数可以帮助我在生成的术语频率上执行madlib.cosine_similaritymadlib.dot_product,这些项频率实际上存储为稀疏矩阵(这不是我所需要的cosine_similarity函数的支持格式)?

EN

回答 1

Database Administration用户

发布于 2019-09-25 10:04:05

我可能错了,但我认为Postgres没有内置TF-国防军功能。我很高兴知道我错了。显然,您可以解析并滚动自己的计数。

如果您还不知道,您可能会对一个名为pg_similarity的包感兴趣,这里有一个链接:

https://salsa.debian.org/postgresql/pg-similarity

它有很多措施。许多数据,包括余弦相似性,可以从索引中读取数据。pg_similarity扩展不能帮助您存储或处理您的语料库,但至少您可以在C函数中获得数学信息。

对于RDS来说,这是一个罕见的胜利,他们已经编译并提供了这个扩展。否则,您需要自己的编译。

我希望你能得到一个更好的答案.我只是想看看这些工具的Postgres实现。

票数 1
EN
页面原文内容由Database Administration提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://dba.stackexchange.com/questions/249467

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档