我使用Whisper模型来识别语音,然后通过从文本中生成SBERT嵌入并根据余弦相似性对已知问题进行排序,然后将输出文本与已知问题列表进行匹配,并将已知问题与Whisper输出的文本的SBERT嵌入进行排序。它运行得很好,我对它的准确性很满意。
我想简化一下这个过程,我知道我可以从低语模型输出中获得编码器嵌入,而不仅仅是转录的文本。
我的问题是:把这些步骤融合在一起的最好方法是什么?更普遍地说,是否有一种很好的方法将嵌入从一个模型向量空间转换到另一个模型向量空间?从线性代数的角度来看,这个任务会被称为什么?
发布于 2023-02-07 12:52:35
这里的问题是,一个文本的SBERT嵌入是一个单一的向量,而从Whisper获得的嵌入是一个向量序列。因此,这不仅仅是映射两个嵌入空间,而是将嵌入空间中的一系列向量映射到不同空间中的单个向量。
当然,你可以训练一个小的多头注意力来模仿同等的SBERT,但是没有什么能保证这样的方法会给从Whisper的输出文本计算SBERT带来类似的结果,或者它在计算上是值得的。
发布于 2023-02-07 05:30:50
更普遍地说,是否有一种很好的方法将嵌入从一个模型向量空间转换到另一个模型向量空间?
我不确定我的答案是否正确,但在我看来,嵌入的linear transformation可以从一个模型向量空间过渡到另一个模型向量空间。
另外,还可以使用主成分分析( PCA )来确定参数向量。Principal component analysis是一种流行的技术,用于分析每个观测中包含大量维/特征的大型数据集,增加数据的可解释性,同时保持最大信息量,并支持多维数据的可视化。维基百科的解释在这里
https://datascience.stackexchange.com/questions/118343
复制相似问题