我有大约30个word2vec型号。在python脚本中加载它们时,每个文件都会消耗几GB的RAM,因此不可能同时使用所有文件。有没有办法在不将完整的模型加载到RAM中的情况下使用这些模型?
发布于 2017-06-02 16:30:23
我对gensim中的word2vec实现不是很熟悉,但是这个模型一旦经过训练,基本上应该归结为(word ->向量)对的字典。此功能由gensim.models.KeyedVectors类提供,独立于用于派生向量的训练算法。
您可以扩展该类,使其按需从数据库(例如SQLite)加载向量,而不是在创建时加载到内存中。
最好是在github上打开一个问题,并与核心开发人员就这一问题展开讨论。
https://stackoverflow.com/questions/44323816
复制相似问题