首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何将Whisper编码转换为SBERT嵌入?

如何将Whisper编码转换为SBERT嵌入?
EN

Data Science用户
提问于 2023-02-07 02:32:09
回答 2查看 81关注 0票数 0

我使用Whisper模型来识别语音,然后通过从文本中生成SBERT嵌入并根据余弦相似性对已知问题进行排序,然后将输出文本与已知问题列表进行匹配,并将已知问题与Whisper输出的文本的SBERT嵌入进行排序。它运行得很好,我对它的准确性很满意。

我想简化一下这个过程,我知道我可以从低语模型输出中获得编码器嵌入,而不仅仅是转录的文本。

我的问题是:把这些步骤融合在一起的最好方法是什么?更普遍地说,是否有一种很好的方法将嵌入从一个模型向量空间转换到另一个模型向量空间?从线性代数的角度来看,这个任务会被称为什么?

EN

回答 2

Data Science用户

回答已采纳

发布于 2023-02-07 12:52:35

这里的问题是,一个文本的SBERT嵌入是一个单一的向量,而从Whisper获得的嵌入是一个向量序列。因此,这不仅仅是映射两个嵌入空间,而是将嵌入空间中的一系列向量映射到不同空间中的单个向量。

当然,你可以训练一个小的多头注意力来模仿同等的SBERT,但是没有什么能保证这样的方法会给从Whisper的输出文本计算SBERT带来类似的结果,或者它在计算上是值得的。

票数 1
EN

Data Science用户

发布于 2023-02-07 05:30:50

更普遍地说,是否有一种很好的方法将嵌入从一个模型向量空间转换到另一个模型向量空间?

我不确定我的答案是否正确,但在我看来,嵌入的linear transformation可以从一个模型向量空间过渡到另一个模型向量空间。

另外,还可以使用主成分分析( PCA )来确定参数向量。Principal component analysis是一种流行的技术,用于分析每个观测中包含大量维/特征的大型数据集,增加数据的可解释性,同时保持最大信息量,并支持多维数据的可视化。维基百科的解释在这里

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/118343

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档