首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >DistilBERT,少于512个令牌,Colab崩溃

DistilBERT,少于512个令牌,Colab崩溃
EN

Stack Overflow用户
提问于 2022-02-28 00:06:28
回答 1查看 473关注 0票数 0

我遵循这个指南https://jalammar.github.io/a-visual-guide-to-using-bert-for-the-first-time/,我的文本观察平均包含少于250-300个单词,所以我在任何文本行中都没有512个标记。

但类似于这个问题:Fluctuating RAM in google colab while running a BERT model我必须将max_length限制在100以下,因为否则Google就会崩溃。

我看到了其他应用基于伯特的变压器和使用Pytorch DataLoader批量加载数据的例子,但在本例中无法找到实现它的方法。

EN

回答 1

Stack Overflow用户

发布于 2022-02-28 09:28:24

正如您正确地说过的,在本教程中,您似乎表明没有使用批处理,所以整个数据都以一批的形式传递给模型,这对ressources允许您使用的数据来说可能太多了。

如果您只想让它正常工作,可以尝试将数据中的行数限制为本教程是如何做到的(在本例中是2000):https://www.kaggle.com/rahulvks/distilbert-text-classification

或者,更好的是,使用dataloader,然后像本教程一样迭代它们:https://seekinginference.com/applied_nlp/distilbert.html

通常,在Colab中使用转换器模型时,您应该确保激活GPU的使用(编辑->笔记本设置),因为这使您可以免费访问一些相当好的GPU,并且大大提高了培训速度。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71289431

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档