我刚开始深造,遇到了伯特。我尝试了small_bert/bert_en_uncased_L-4_H-512_A-8,就像Tensorflow教程所做的那样,结果非常惊人。我想深入挖掘,并想知道相应的bert_en_uncased_preprocess是如何制作的。
据我所知,它完成了所有那些WordPiece标记化工作,因此它应该包含一些编码,而不仅仅是培训。https://tfhub.dev/tensorflow/bert_en_uncased_preprocess/3提供SavedModel。有什么源代码或类似的东西吗?一般情况下是怎么做的?
它与使用无关。它的用法很好,很清楚。目的是为了学习。
提前谢谢。
发布于 2022-04-18 09:51:50
该对象由Tensorflow示范园中的NLP模块在预处理函数中创建。
preprocessor = hub.load("https://tfhub.dev/tensorflow/bert_en_uncased_preprocess/3")预处理器的tokenize函数由BertTokenizer类实现,bert_pack_inputs函数由BertPackInputs类实现。
这些urls将引导您找到源代码。
https://stackoverflow.com/questions/67834710
复制相似问题