PaddlePaddle · zhangbo9674 · Jan 20, 2022 · Jan 17, 2022 · Jan 18, 2022
diff --git a/paddle/fluid/operators/optimizers/merged_momentum_op.h b/paddle/fluid/operators/optimizers/merged_momentum_op.h
@@ -48,13 +48,13 @@ struct MergedMomentumKernelParam
   T *PADDLE_RESTRICT params[N];
   const T *PADDLE_RESTRICT grads[N];
   MT *PADDLE_RESTRICT velocitys[N];
-  const MT *PADDLE_RESTRICT lr;
+  const MultiPrecisionType<MT> *PADDLE_RESTRICT lr;
   MT mu;
   MT rescale_grad;
   uint32_t param_num;
 
   HOSTDEVICE void operator()(size_t i) const {
-    const auto lr_val = *lr;
+    const MT lr_val = static_cast<MT>(*lr);
     for (uint32_t idx = 0; idx < param_num; ++idx) {
       auto size = sizes[idx];
       if (i >= size) continue;
@@ -81,8 +81,22 @@ struct MergedMomentumKernelParam
 
 template <typename DeviceContext, typename T>
 class MergedMomentumOpKernel : public framework::OpKernel<T> {
+  using MPType = typename operators::details::MPTypeTrait<T>::Type;
+
  public:
   void Compute(const framework::ExecutionContext &ctx) const override {
+    const bool multi_precision = ctx.Attr<bool>("multi_precision");
+    if (multi_precision) {
+      InnerCompute<MPType>(ctx, multi_precision);
+    } else {
+      InnerCompute<T>(ctx, multi_precision);
+    }
+  }
+
+ private:
+  template <typename MT>
+  void InnerCompute(const framework::ExecutionContext &ctx,
+                    const bool multi_precision) const {
     auto params = ctx.MultiInput<framework::Tensor>("Param");
     auto params_out = ctx.MultiOutput<framework::Tensor>("ParamOut");
     size_t n = params.size();
@@ -133,7 +147,6 @@ class MergedMomentumOpKernel : public framework::OpKernel<T> {
     auto master_params = ctx.MultiInput<framework::Tensor>("MasterParam");
     auto master_params_out =
         ctx.MultiOutput<framework::Tensor>("MasterParamOut");
-    auto multi_precision = ctx.Attr<bool>("multi_precision");
     if (multi_precision) {
       PADDLE_ENFORCE_EQ(
           n, master_params.size(),
@@ -206,39 +219,37 @@ class MergedMomentumOpKernel : public framework::OpKernel<T> {
             << ",  regularization_coeffs.size(): "
             << regularization_coeffs.size();
 
-    using MPType = typename operators::details::MPTypeTrait<T>::Type;
-
     auto &dev_ctx = ctx.template device_context<DeviceContext>();
 
     if (lrs.size() == 1 && use_nesterov == false &&
         regularization_methods.size() == 0) {
-#define PADDLE_LAUNCH_MERGED_MOMENTUM_KERNEL(kMultiPrecision)                \
-  MergedMomentumKernelParam<T, MPType, kMultiPrecision> kernel_params;       \
-  constexpr auto kMaxMergedNum = decltype(kernel_params)::N;                 \
-  size_t kernel_num = (n + kMaxMergedNum - 1) / kMaxMergedNum;               \
-  kernel_params.mu = static_cast<MPType>(mu);                                \
-  kernel_params.rescale_grad = static_cast<MPType>(rescale_grad);            \
-  kernel_params.lr = lrs[0]->data<MPType>();                                 \
-  for (size_t i = 0; i < kernel_num; ++i) {                                  \
-    size_t start = i * kMaxMergedNum;                                        \
-    size_t end = std::min((i + 1) * kMaxMergedNum, n);                       \
-    kernel_params.param_num = static_cast<uint32_t>(end - start);            \
-    size_t max_size = 0;                                                     \
-    for (size_t j = 0; j < kernel_params.param_num; ++j) {                   \
-      auto size = static_cast<size_t>(params_out[j + start]->numel());       \
-      max_size = std::max(max_size, size);                                   \
-      kernel_params.sizes[j] = size;                                         \
-      kernel_params.params[j] = params_out[j + start]->data<T>();            \
-      kernel_params.grads[j] = grads[j + start]->data<T>();                  \
-      kernel_params.velocitys[j] = velocitys_out[j + start]->data<MPType>(); \
-      kernel_params.SetMasterParam(                                          \
-          j, kMultiPrecision ? master_params_out[j + start]->data<MPType>()  \
-                             : nullptr);                                     \
-    }                                                                        \
-    platform::ForRange<DeviceContext> for_range(dev_ctx, max_size);          \
-    for_range(kernel_params);                                                \
-    VLOG(10) << "Launch MergedMomentum kernel " << i << " "                  \
-             << kernel_params.param_num;                                     \
+#define PADDLE_LAUNCH_MERGED_MOMENTUM_KERNEL(kMultiPrecision)            \
+  MergedMomentumKernelParam<T, MT, kMultiPrecision> kernel_params;       \
+  constexpr auto kMaxMergedNum = decltype(kernel_params)::N;             \
+  size_t kernel_num = (n + kMaxMergedNum - 1) / kMaxMergedNum;           \
+  kernel_params.mu = static_cast<MT>(mu);                                \
+  kernel_params.rescale_grad = static_cast<MT>(rescale_grad);            \
+  kernel_params.lr = lrs[0]->data<MPType>();                             \
+  for (size_t i = 0; i < kernel_num; ++i) {                              \
+    size_t start = i * kMaxMergedNum;                                    \
+    size_t end = std::min((i + 1) * kMaxMergedNum, n);                   \
+    kernel_params.param_num = static_cast<uint32_t>(end - start);        \
+    size_t max_size = 0;                                                 \
+    for (size_t j = 0; j < kernel_params.param_num; ++j) {               \
+      auto size = static_cast<size_t>(params_out[j + start]->numel());   \
+      max_size = std::max(max_size, size);                               \
+      kernel_params.sizes[j] = size;                                     \
+      kernel_params.params[j] = params_out[j + start]->data<T>();        \
+      kernel_params.grads[j] = grads[j + start]->data<T>();              \
+      kernel_params.velocitys[j] = velocitys_out[j + start]->data<MT>(); \
+      kernel_params.SetMasterParam(                                      \
+          j, kMultiPrecision ? master_params_out[j + start]->data<MT>()  \
+                             : nullptr);                                 \
+    }                                                                    \
+    platform::ForRange<DeviceContext> for_range(dev_ctx, max_size);      \
+    for_range(kernel_params);                                            \
+    VLOG(10) << "Launch MergedMomentum kernel " << i << " "              \
+             << kernel_params.param_num;                                 \
   }
       if (multi_precision) {
         PADDLE_LAUNCH_MERGED_MOMENTUM_KERNEL(true);
@@ -254,34 +265,33 @@ class MergedMomentumOpKernel : public framework::OpKernel<T> {
                 ? RegularizationType::kL2DECAY
                 : RegularizationType::kNONE;
 
-        MPType regularization_coeff = static_cast<MPType>(0.0);
+        MT regularization_coeff = static_cast<MT>(0.0);
         if (regularization_coeffs.size() != 0) {
-          regularization_coeff =
-              static_cast<MPType>(regularization_coeffs[idx]);
+          regularization_coeff = static_cast<MT>(regularization_coeffs[idx]);
         }
         auto lr_temp = lrs.size() > 1 ? lrs[idx] : lrs[0];
 
-        const MPType *master_in_data =
-            multi_precision ? master_params[idx]->data<MPType>() : nullptr;
-        MPType *master_out_data =
-            multi_precision ? master_params_out[idx]->data<MPType>() : nullptr;
+        const MT *master_in_data =
+            multi_precision ? master_params[idx]->data<MT>() : nullptr;
+        MT *master_out_data =
+            multi_precision ? master_params_out[idx]->data<MT>() : nullptr;
         if (platform::is_cpu_place(ctx.GetPlace())) {
-          CPUDenseMomentumFunctor<MPType> functor;
-          functor(params[idx], grads[idx], velocitys[idx], lr_temp, mu,
-                  use_nesterov, regularization_flag, regularization_coeff,
-                  params_out[idx], velocitys_out[idx]);
+          CPUDenseMomentumFunctor<MT> functor;
+          functor(params[idx], grads[idx], velocitys[idx], lr_temp,
+                  static_cast<MT>(mu), use_nesterov, regularization_flag,
+                  regularization_coeff, params_out[idx], velocitys_out[idx]);
           VLOG(10) << "Launch MergedMomentum cpu kernel.";
         } else if (platform::is_gpu_place(ctx.GetPlace())) {
           platform::ForRange<DeviceContext> for_range(
               static_cast<const DeviceContext &>(ctx.device_context()),
               params[idx]->numel());
-#define PADDLE_LAUNCH_DENSE_MTMOMENTUM_KERNEL(__nesterov, __reg_type)          \
-  DenseMomentumFunctor<T, MPType, __reg_type, __nesterov> functor(             \
-      params[idx]->data<T>(), grads[idx]->data<T>(),                           \
-      velocitys[idx]->data<MPType>(), lr_temp->data<MPType>(), master_in_data, \
-      mu, rescale_grad, params[idx]->numel(), regularization_coeff,            \
-      params_out[idx]->data<T>(), velocitys_out[idx]->data<MPType>(),          \
-      master_out_data);                                                        \
+#define PADDLE_LAUNCH_DENSE_MTMOMENTUM_KERNEL(__nesterov, __reg_type)         \
+  DenseMomentumFunctor<T, MT, __reg_type, __nesterov> functor(                \
+      params[idx]->data<T>(), grads[idx]->data<T>(),                          \
+      velocitys[idx]->data<MT>(), lr_temp->data<MPType>(), master_in_data,    \
+      static_cast<MT>(mu), static_cast<MT>(rescale_grad),                     \
+      params[idx]->numel(), regularization_coeff, params_out[idx]->data<T>(), \
+      velocitys_out[idx]->data<MT>(), master_out_data);                       \
   for_range(functor);
           if (use_nesterov) {
             if (regularization_flag == RegularizationType::kL2DECAY) {

diff --git a/python/paddle/optimizer/adam.py b/python/paddle/optimizer/adam.py
@@ -551,8 +551,7 @@ def _append_optimize_multi_tensor_op(self, target_block,
         multi_tensor_list = ['FP32_LODTensor', 'FP16_LODTensor']
         for key in multi_tensor_list:
             if len(self._param_dict[key]) > 0:
-                if key == 'FP32_LODTensor':
-                    self._multi_precision = False
+                find_master = self._multi_precision and key == 'FP16_LODTensor'
 
                 _beta1 = self._beta1 if not isinstance(
                     self._beta1, Variable) else self._beta1.numpy().item(0)
@@ -571,7 +570,7 @@ def _append_optimize_multi_tensor_op(self, target_block,
                         self._beta2_pow_acc_dict[key],
                         self._master_weight_dict[key], 'epsilon', self._epsilon,
                         'beta1', _beta1, 'beta2', _beta2, 'multi_precision',
-                        self._multi_precision)
+                        find_master)
                 else:
                     inputs = {
                         "Param": self._param_dict[key],
@@ -594,11 +593,11 @@ def _append_optimize_multi_tensor_op(self, target_block,
                         "beta1": _beta1,
                         "beta2": _beta2
                     }
-                    if self._multi_precision:
+                    if find_master:
                         inputs["MasterParam"] = self._master_weight_dict[key]
                         outputs["MasterParamOut"] = self._master_weight_dict[
                             key]
-                        attrs["multi_precision"] = self._multi_precision
+                        attrs["multi_precision"] = find_master
                     target_block.append_op(
                         type="merged_adam",
                         inputs=inputs,

diff --git a/python/paddle/optimizer/momentum.py b/python/paddle/optimizer/momentum.py
@@ -464,8 +464,7 @@ def _append_optimize_multi_tensor_op(self, target_block,
         multi_tensor_list = ['FP32_LODTensor', 'FP16_LODTensor']
         for key in multi_tensor_list:
             if len(self._param_dict[key]) > 0:
-                if key == 'FP32_LODTensor':
-                    self._multi_precision = False
+                find_master = self._multi_precision and key == 'FP16_LODTensor'
 
                 if framework.in_dygraph_mode():
                     _, _, _ = _C_ops.merged_momentum(
@@ -478,7 +477,7 @@ def _append_optimize_multi_tensor_op(self, target_block,
                         self._regularization_method_dict[key],
                         'regularization_coeff',
                         self._regularization_coeff_dict[key], 'multi_precision',
-                        self._multi_precision)
+                        find_master)
                 else:
                     inputs = {
                         "Param": self._param_dict[key],
@@ -498,11 +497,11 @@ def _append_optimize_multi_tensor_op(self, target_block,
                         "regularization_coeff":
                         self._regularization_coeff_dict[key],
                     }
-                    if self._multi_precision:
+                    if find_master:
                         inputs["MasterParam"] = self._master_weight_dict[key]
                         outputs["MasterParamOut"] = self._master_weight_dict[
                             key]
-                        attrs["multi_precision"] = self._multi_precision
+                        attrs["multi_precision"] = find_master
                     target_block.append_op(
                         type="merged_momentum",
                         inputs=inputs,