学习笔记TF040:多GPU并行 - Swift

TOP

学习笔记TF040:多GPU并行(一)

2017-10-09 14:09:57 【大中小】浏览:3805次

TensorFlow并行，模型并行，数据并行。模型并行根据不同模型设计不同并行方式，模型不同计算节点放在不同硬伯上资源运算。数据并行，比较通用简便实现大规模并行方式，同时使用多个硬件资源计算不同batch数据梯度，汇总梯度全局参数更新。

数据并行，多块GPU同时训练多个batch数据，运行在每块GPU模型基于同一神经网络，网络结构一样，共享模型参数。

同步数据并行，所有GPU计算完batch数据梯度，统计将多个梯度合在一起，更新共享模型参数，类似使用较大batch。GPU型号、速度一致时，效率最高。
异步数据并行，不等待所有GPU完成一次训练，哪个GPU完成训练，立即将梯度更新到共享模型参数。
同步数据并行，比异步收敛速度更快，模型精度更高。

同步数据并行，数据集CIFAR-10。载入依赖库，TensorFlow Models cifar10类，下载CIFAR-10数据预处理。

设置batch大小 128,最大步数100万步(中间随时停止，模型定期保存)，GPU数量4。

定义计算损失函数tower_loss。cifar10.distorted_inputs产生数据增强images、labels，调用cifar10.inference生成卷积网络，每个GPU生成单独网络，结构一致，共享模型参数。根据卷积网络、labels，调用cifar10.loss计算损失函数(loss储存到collection)，tf.get_collection('losses',scope)获取当前GPU loss(scope限定范围)，tf.add_n 所有损失叠加一起得total_loss。返回total_loss作函数结果。

定义函数average_gradients，不同GPU计算梯度合成。输入参数tower_grads梯度双层列表，外层列表不同GPU计算梯度，内层列表GPU计算不同Variable梯度。最内层元素(grads,variable)，tower_grads基本元素二元组(梯度、变量)，具体形式[[(grad0_gpu0,var0_gpu0),(grad1_gpu0,var1_gpu0)……],[(grad0_gpu1,var0_gpu1),(grad1_gpu1,var1_gpu1)……]……]。创建平均梯度列表average_grads，梯度在不同GPU平均。zip(*tower_grads)双层列表转置，变[[(grad0_gpu0,var0_gpu0),(grad0_gpu1,var0_gpu1)……],[(grad1_gpu0,var1_gpu0),(grad1_gpu1,var1_gpu1)……]……]形式，循环遍历元素。循环获取元素grad_and_vars，同Variable梯度在不同GPU计算结果。同Variable梯度不同GPU计算副本，计算梯度均值。梯度N维向量，每个维度平均。tf.expand_dims给梯度添加冗余维度0,梯度放列表grad。tf.concat 维度0上合并。tf.reduce_mean维度0平均，其他维度全部平均。平均梯度，和Variable组合得原有二元组(梯度、变量)格式，添加到列表average_grads。所有梯度求均后，返回average_grads。

定义训练函数。设置默认计算设备CPU。global_step记录全局训练步数，计算epoch对应batch数，学习速率衰减需要步数decay_steps。tf.train.exponential_decay创建随训练步数衰减学习速率，第一参数初始学习速率，第二参数全局训练步数，第三参数每次衰减需要步数，第四参数衰减率，staircase设true，阶梯式衰减。设置优化算法GradientDescent，传入随机步数衰减学习速率。

定义储存GPU计算结果列表tower_grads。创建循环，循环次数GPU数量。循环中tf.device限定使用哪个GPU。tf.name_scope命名空间。

GPU用tower_loss获取损失。tf.get_variable_scope().reuse_variables()重用参数。GPU共用一个模型入完全相同参数。opt.compute_gradients(loss)计算单个GPU梯度，添加到梯度列表tower_grads。average_gradients计算平均梯度，opt.apply_gradients更新模型参数。

创建模型保存器saver，Session allow_soft_placement 参数设True。有些操作只能在CPU上进行，不使用soft_placement。初始化全部参数，tf.train.start_queue_runner()准备大量数据增强训练样本，防止训练被阻塞在生成样本。

训练循环，最大迭代次数max_steps。每步执行一次更新梯度操作apply_gradient_op(一次训练操作)，计算损失操作loss。time.time()记录耗时。每隔10步，展示当前batch loss。每秒钟可训练样本数和每个batch训练花费时间。每隔1000步，Saver保存整个模型文件。

cifar10.maybe_download_and_extract()下载完整CIFAR-10数据，train()开始训练。

loss从最开始4点几，到第70万步，降到0.07。平均每个batch耗时0.021s，平均每秒训练6000个样本，单GPU 4倍。

    import os.path
    import re
    import time
    import numpy as np
    import tensorflow as tf
    import cifar10
    batch_size=128
    #train_dir='/tmp/cifar10_train'
    max_steps=1000000
    num_gpus=4
    #log_device_placement=False
    def tower_loss(scope):
      """Calculate the total loss on a single tower running the CIFAR model.
      Args:
        scope: unique prefix string identifying the CIFAR tower, e.g. 'tower_0'
      Returns:
         Tensor of shape [] containing the total loss for a batch of data
      """
      # Get images and labels for CIFAR-10.
      images, labels = cifar10.distorted_inputs()
      # Build inference Graph.
      logits = cifar10.inference(images)
      # Build the portion of the Graph calculating the losses. Note that we will
      # assemble the total_loss using a custom function below.
      _ = cifar10.loss(logits, labels)
      # Assemble all o

首页上一页 1 2 3 下一页尾页 1/3/3
【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：swift 之 as、as!、as?	下一篇：类型转换 / BOOL 类型