我正在使用BERT单词嵌入3个标签的句子分类任务。我正在使用谷歌Colab进行编码。我的问题是,由于我每次重启内核时都必须执行嵌入部分,有没有办法在生成后保存这些单词嵌入?因为,生成这些嵌入需要花费大量的时间。
我用来生成BERT单词嵌入的代码是-
[get_features(text_list[i]) for text_list[i] in text_list]这里,gen_features是一个函数,它为我的列表text_list中的每个i返回单词嵌入。
我读到将嵌入转换为颠簸张量,然后使用np.save可以做到这一点。但实际上我不知道如何编码。
请帮帮忙。
发布于 2020-07-03 16:19:06
您可以通过以下步骤将嵌入数据保存到numpy文件:
all_embeddings = here_is_your_function_return_all_data()
all_embeddings = np.array(all_embeddings)
np.save('embeddings.npy', all_embeddings)如果您正在保存到google colab,那么您可以将其下载到您的本地计算机。当你需要它的时候,只需上传并加载它。
all_embeddings = np.load('embeddings.npy')就这样。
顺便说一句,你也可以直接将你的文件保存到google drive。
https://stackoverflow.com/questions/62710872
复制相似问题