我正在做一个小的主题建模项目,我偶然发现了在MADlib和PostgreSQL中开发它的想法。
MADlib提供了这个术语频率函数,它将我的文档转换成,良好的术语频率。
是否还有其他实用函数可以帮助我在生成的术语频率上执行madlib.cosine_similarity或madlib.dot_product,这些项频率实际上存储为稀疏矩阵(这不是我所需要的cosine_similarity函数的支持格式)?
发布于 2019-09-25 10:04:05
我可能错了,但我认为Postgres没有内置TF-国防军功能。我很高兴知道我错了。显然,您可以解析并滚动自己的计数。
如果您还不知道,您可能会对一个名为pg_similarity的包感兴趣,这里有一个链接:
https://salsa.debian.org/postgresql/pg-similarity
它有很多措施。许多数据,包括余弦相似性,可以从索引中读取数据。pg_similarity扩展不能帮助您存储或处理您的语料库,但至少您可以在C函数中获得数学信息。
对于RDS来说,这是一个罕见的胜利,他们已经编译并提供了这个扩展。否则,您需要自己的编译。
我希望你能得到一个更好的答案.我只是想看看这些工具的Postgres实现。
https://dba.stackexchange.com/questions/249467
复制相似问题