首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在TensorFlow中尝试微调GPT-2模型时的ValueError

在TensorFlow中尝试微调GPT-2模型时的ValueError
EN

Stack Overflow用户
提问于 2021-07-03 14:02:02
回答 1查看 170关注 0票数 0

在对Hugging Face's distribution of the GPT-2 model进行微调时,我在Python代码中遇到了ValueError。具体地说:

代码语言:javascript
复制
ValueError: Dimensions must be equal, but are 64 and 0 for
'{{node Equal_1}} = Equal[T=DT_FLOAT, incompatible_shape_error=true](Cast_18, Cast_19)'
with input shapes: [64,0,1024], [2,0,12,1024].

我有大约100个文本文件,我将它们连接到一个名为raw_text的字符串变量中,然后传递给以下函数,以创建训练和测试TensorFlow数据集:

代码语言:javascript
复制
def to_datasets(raw_text):
    # split the raw text in smaller sequences
    seqs = [
        raw_text[SEQ_LEN * i:SEQ_LEN * (i + 1)]
        for i in range(len(raw_text) // SEQ_LEN)
    ]

    # set up Hugging Face GPT-2 tokenizer
    tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
    tokenizer.pad_token = tokenizer.eos_token

    # tokenize the character sequences
    tokenized_seqs = [
        tokenizer(seq, padding="max_length", return_tensors="tf")["input_ids"]
        for seq in seqs
    ]

    # convert tokenized sequences into TensorFlow datasets
    trn_seqs = tf.data.Dataset \
        .from_tensor_slices(tokenized_seqs[:int(len(tokenized_seqs) * TRAIN_PERCENT)])
    tst_seqs = tf.data.Dataset \
        .from_tensor_slices(tokenized_seqs[int(len(tokenized_seqs) * TRAIN_PERCENT):])

    def input_and_target(x):
        return x[:-1], x[1:]

    # map into (input, target) tuples, shuffle order of elements, and batch
    trn_dataset = trn_seqs.map(input_and_target) \
        .shuffle(SHUFFLE_BUFFER_SIZE) \
        .batch(BATCH_SIZE, drop_remainder=True)
    tst_dataset = tst_seqs.map(input_and_target) \
        .shuffle(SHUFFLE_BUFFER_SIZE) \
        .batch(BATCH_SIZE, drop_remainder=True)

    return trn_dataset, tst_dataset

然后我尝试训练我的模型,调用train_model(*to_datasets(raw_text))

代码语言:javascript
复制
def train_model(trn_dataset, tst_dataset):
    # import Hugging Face GPT-2 model
    model = TFGPT2Model.from_pretrained("gpt2")

    model.compile(
        optimizer=tf.keras.optimizers.Adam(),
        loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
        metrics=tf.metrics.SparseCategoricalAccuracy()
    )

    model.fit(
        trn_dataset,
        epochs=EPOCHS,
        initial_epoch=0,
        validation_data=tst_dataset
    )

model.fit()调用时触发ValueError。全大写中的变量是从JSON文件中提取的设置。目前,它们被设置为:

代码语言:javascript
复制
{
    "BATCH_SIZE":64,
    "SHUFFLE_BUFFER_SIZE":10000,
    "EPOCHS":500,
    "SEQ_LEN":2048,
    "TRAIN_PERCENT":0.9
}

任何有关此错误含义的信息或如何解决此错误的想法都将不胜感激。谢谢!

EN

回答 1

Stack Overflow用户

发布于 2021-07-29 23:43:19

我也遇到了同样的问题,但是当我将批处理大小改为12 (与gpt-2配置文件中的n_layer参数相同)时,它就可以工作了。我不知道为什么它有效,但你可以试一下。如果你设法用不同的方法解决这个问题,我将很高兴听到。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68233646

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档