文章/答案/技术大牛

发布

社区首页 >问答首页 >如何加快tensorflow rnn训练速度？

问如何加快tensorflow rnn训练速度？
EN

Stack Overflow用户

提问于 2016-12-12 08:36:19

回答 3查看 10.5K关注 0票数 9

现在，基于tensorflow-char-rnn，我启动了一个word-rnn项目来预测下一个单词。但是我发现在我的火车数据集中速度太慢了。以下是我的培训细节：

培训数据大小:10亿字
词汇量: 0.75百万
RNN模型: lstm
RNN层:2
细胞大小: 200
Seq长度: 20
批次大小: 40 (太大的批次会导致OOM异常)

这台机器详细说明：

亚马逊p2实例
1核K80图形处理器
16G视频存储器
4核心CPU
60G存储器

在我的测试中，训练数据1期的时间需要17天！这真的太慢了，然后我将seq2seq.rnn_decoder改为tf.nn.dynamic_rnn，但时间仍然是17天。

我想找出太慢的原因是我的代码造成的，还是一直这么慢？因为我听说Tensorflow rnn比其他DL框架慢。

这是我的模型代码：

class SeqModel():
def __init__(self, config, infer=False):
    self.args = config
    if infer:
        config.batch_size = 1
        config.seq_length = 1

    if config.model == 'rnn':
        cell_fn = rnn_cell.BasicRNNCell
    elif config.model == 'gru':
        cell_fn = rnn_cell.GRUCell
    elif config.model == 'lstm':
        cell_fn = rnn_cell.BasicLSTMCell
    else:
        raise Exception("model type not supported: {}".format(config.model))

    cell = cell_fn(config.hidden_size)

    self.cell = cell = rnn_cell.MultiRNNCell([cell] * config.num_layers)

    self.input_data = tf.placeholder(tf.int32, [config.batch_size, config.seq_length])
    self.targets = tf.placeholder(tf.int32, [config.batch_size, config.seq_length])
    self.initial_state = cell.zero_state(config.batch_size, tf.float32)

    with tf.variable_scope('rnnlm'):
        softmax_w = tf.get_variable("softmax_w", [config.hidden_size, config.vocab_size])
        softmax_b = tf.get_variable("softmax_b", [config.vocab_size])

        embedding = tf.get_variable("embedding", [config.vocab_size, config.hidden_size])
        inputs = tf.nn.embedding_lookup(embedding, self.input_data)


    outputs, last_state = tf.nn.dynamic_rnn(cell, inputs, initial_state=self.initial_state)

    # [seq_size * batch_size, hidden_size]
    output = tf.reshape(tf.concat(1, outputs), [-1, config.hidden_size])

    self.logits = tf.matmul(output, softmax_w) + softmax_b
    self.probs = tf.nn.softmax(self.logits)

    self.final_state = last_state


    loss = seq2seq.sequence_loss_by_example([self.logits],
                                            [tf.reshape(self.targets, [-1])],
                                            [tf.ones([config.batch_size * config.seq_length])],
                                            config.vocab_size)
    self.cost = tf.reduce_sum(loss) / config.batch_size / config.seq_length

    self.lr = tf.Variable(0.0, trainable=False)
    tvars = tf.trainable_variables()
    grads, _ = tf.clip_by_global_norm(tf.gradients(self.cost, tvars),
                                      config.grad_clip)
    optimizer = tf.train.AdamOptimizer(self.lr)
    self.train_op = optimizer.apply_gradients(zip(grads, tvars))

这里是训练期间的GPU负载。

非常感谢。

tensorflow

lstm

回答 3

Stack Overflow用户

回答已采纳

发布于 2016-12-12 16:16:38

正如您提到的batch_size是非常重要的调优，它可以导致令人印象深刻的加速，但检查您的困惑保持相关。

监视您的GPU活动，可以提示您潜在的I/O瓶颈。

最重要的是，使用采样的软件最大代替常规的软最大是更快的。这将要求您使用[config.vocab_size, config.hidden_size]权重矩阵而不是[config.hidden_size, config.vocab_size]。这绝对是我的观点。

希望这能有所帮助。

pltrdy

票数 6

Stack Overflow用户

发布于 2017-10-03 16:20:59

另一种可能的方法是你可以加速训练，也可能是你缺乏使用GPU的原因，那就是你在使用占位符。如果使用Tensorflow < 1.2，则应该使用队列，否则使用tf.contrib.data模块。

排队

票数 3

Stack Overflow用户

发布于 2021-07-04 04:53:00

这里有两行代码加快了我的执行速度。

tf.compat.v1.disable_eager_execution()
tf.config.optimizer.set_jit(True)

请参阅这里以获得急切的执行，而jit则用于判断它对您的情况是否有帮助。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/41096896

复制

相似问题

问如何加快tensorflow rnn训练速度？
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何加快tensorflow rnn训练速度？EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何加快tensorflow rnn训练速度？
EN