【PaddlePaddle Hackathon 4 No.34】为 Paddle 优化 Lerp OP 在 GPU 上的性能 #53154

WintersMontagne10335 · 2023-04-21T01:04:31Z

PR types

Performance optimization

PR changes

OPs

Description

目前 Paddle 内 lerp 算子采用第三方库组合实现，性能不足。可以基于飞桨内部的Broadcast Kernel实现良好的优化效果。
设计文档：PaddlePaddle/community#513

开发环境：

设备:RTX 960
环境:CUDA 10.2,cuDNN 7.6

优化方法

主要基于Broadcast Kernel与自定义的Functor
weight很多时候是scalar，故将weight是scalar还是tensor两种情况分开讨论

完成优化后，Paddle与优化前的Paddle的前向推理性能对比效果:

Case No.	device	input_type	x_shape	y_shape	origin Paddle Perf(ms)	current Paddle Perf(ms)	diff
1	GeForce GTX960	float32	[-1L, 102400L]	[-1L, 102400L]	0.6911145	0.6568878	faster than 5.2%
2	GeForce GTX960	float32	[16L, 1L, 1L, 1L]	[16L, 3L, 224L, 224L]	3.1153775	0.9911732	faster than 214.3%
3	GeForce GTX960	float16	[-1L, 102400L]	[-1L, 102400L]	0.5005047	0.3446356	faster than 45.2%
4	GeForce GTX960	float16	[16L, 1L, 1L, 1L]	[16L, 3L, 224L, 224L]	2.8568278	0.5562943	faster than 413.5%

可以看到，平均性能至少提升了20%，对于性能差的case，性能提升到了原先的5倍。经过优化，性能得到了较大的提升。

paddle-bot · 2023-04-21T01:04:35Z

你的PR提交成功，感谢你对开源项目的贡献!
请关注后续CI自动化测试结果，详情请参考Paddle-CI手册。
Your PR has been submitted. Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

paddle-bot · 2023-04-21T01:04:39Z

❌ The PR is not created using PR's template. You can refer to this Demo.
Please use PR's template, it helps save our maintainers' time so that more developers get helped.

… winters000

…nto winters000

JamesLim-sy · 2023-04-25T08:07:35Z

paddle/phi/kernels/gpu/lerp_kernel.cu

+          "The number of dimensions for LerpOp must be "
+          "greater than or equal to 0, but the value received is %d.",
+          rank));
+  PADDLE_ENFORCE_LE(


因为采用的核心计算是BroadcastKernel，内置了一些判断规则，不必沿用这里的 rank <= 6的设定，这个设定是为Eigen服务的，可以删除掉.

JamesLim-sy · 2023-04-25T08:13:15Z

paddle/phi/kernels/gpu/lerp_kernel.cu

+            broadcast_min_functor);
+        inputs.emplace_back(&x);
+        inputs.emplace_back(&b_min);
+        inputs.emplace_back(&weight);


这部分的计算逻辑我理解是对输入的数据首先将维度按照out_tensor的维度进行补齐，然后再调用一次BroadcastKernel。BroadcastKernel内置了一套逻辑，可以直接的对维度信息进行补齐，唯一需要主义的就是设定补齐的axis 轴即可，不需要分两次调用，关于维度补齐中axis的设置，可以参考numpy.

老师您好！非常感谢您的指点！
请问您的意思，是设置合适axis的值调用BroadcastKernel就可以实现纬度对齐+运算的功能，还是先预处理数据实现纬度对齐再调用BroadcastKernel实现运算呀？
如果是前者，这里有一种特殊情况我无法处理。
在使用BroadcastKernel时，如果参数ET为ElementwiseType::kBinary、ins中的三个tensor的维度各不相同，不管axis参数的值为多少，因为参数axis是一个数，ins中总有一个tensor不能正常broadcast。

y将不能正常broadcast。
查看paddle/phi/kernels/funcs/dims_simplifier.h的ExtendInputDimensions函数可知，ins中的tensor是根据outs[0]一个个进行broadcast的。以上面的例子为例，假如axis为1，则x不能正常broadcast；假如axis为2，则y不能正常broadcast。
是我调用错了Kernel吗？
如果是后者，请问对于预处理部分，有什么可以参考的代码吗？

从PM同学那里听说你对我的这部分修改建议持否定态度，请问下理由是什么吗？如果理由OK的话，我这边会合入的

@JamesLim-sy 老师您好！您误会了，我不是持否定的态度哈。我是遇到了自己难以解决的困难，向您寻求一下进一步的指导。
您提出不需要分两次调用调用BroadcastKernel，我是很赞同的，我最初也是那样写的，但是在测试遇到了问题（具体内容可以见上面的回复）。我做过了一些别的尝试，但是都失败了，最终选择了对于特殊情况分两次调用BroadcastKernel。
您有更好的解决方法吗？

我的意思是，Paddle的Broadcast计算，支持 (input_0.broadcast + input_1.broadcast + input_2.broadcast) = (output_0, output_1) 这种计算模式，不必先单独broaddcast::kUnary ，再执行计算的。可以本地先测试下通用一次性的BoradcastTenery 完成计算.

@JamesLim-sy 您的意思，是用一次多输出的Broadcast::kTernary替换掉一次单输出的Broadcast:::kUnary+一次单输出的Broadcast::kTernary吗？如果是这样的话，我查看源码之后发现并不可行。
从'/paddle/phi/kernels/funcs/broadcast_function.h'的49行代码可以看出，多输出的情况下，要求各个输出的dims()相同。从'/paddle/phi/kernels/funcs/broadcast_function.h'的974行代码可以看出，多输出的情况下，各个输入的broadcast过程是由(*outs)[0]->dims()与int型参数axis决定的，这与单输出的Broadcast::kTernary的broadcast过程是完全相同的，这也意味着也会出现上述所说的问题。
另外之前CI中所有Required的部分都过了，但是现在paddle-ci-bot显示'Sorry to inform you that 81c86105e84f03cbc635fc247e050a20da1d96b1's CIs have passed for more than 7 days. To prevent PR conflicts, you need to re-run all CIs manually.'，我重新构建失败的部分，也不能成功QAQ，这是哪里的原因呀？

@JamesLim-sy 老师您好，麻烦您再看一下。

@JamesLim-sy 呜呜呜，等好久了，您抽空再审核下吧

修改完毕

@JamesLim-sy mingshu老师有时间review一下吗？

… winters000

…nto winters000

paddle-ci-bot · 2023-05-04T03:23:07Z

Sorry to inform you that 81c8610's CIs have passed for more than 7 days. To prevent PR conflicts, you need to re-run all CIs manually.

fix some CI issues

JamesLim-sy

LGTM

JamesLim-sy · 2023-05-16T10:59:09Z

paddle/phi/kernels/gpu/lerp_kernel.cu

+#include "paddle/phi/kernels/funcs/broadcast_function.h"
+#include "paddle/phi/kernels/funcs/common_shape.h"
+#include "paddle/phi/kernels/funcs/math_function.h"
+


#include "paddle/phi/kernels/empty_kernel.h" #include "paddle/phi/kernels/funcs/broadcast_function.h" #include "paddle/phi/kernels/funcs/common_shape.h" #include "paddle/phi/kernels/funcs/math_function.h"

这几个头文件都裹在#include "paddle/phi/kernels/funcs/broadcast_function.h"里面了，之后希望能再提一个PR修改掉.

modify lerp_kernel.cu

d6dbd12

paddle-bot bot added contributor External developers status: proposed labels Apr 21, 2023

WintersMontagne10335 added 2 commits April 21, 2023 01:29

pre-commit

60e071f

fix some CI issues

ab512b8

luotao1 assigned luotao1, Ligoml and JamesLim-sy Apr 21, 2023

WintersMontagne10335 added 2 commits April 21, 2023 09:51

fix some CI issues

1d63732

fix some CI issues

2d43b55

WintersMontagne10335 mentioned this pull request Apr 21, 2023

【PaddlePaddle Hackathon 第四期】任务总览 #51281

Closed

WintersMontagne10335 added 2 commits April 21, 2023 23:37

fix some CI issues

f791c5d

fix some CI issues

09c0042

WintersMontagne10335 force-pushed the winters000 branch from b900b2a to 09c0042 Compare April 24, 2023 13:32

WintersMontagne10335 and others added 5 commits April 25, 2023 00:36

fix some CI issues

c73530b

Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle into…

5d02d8a

… winters000

Merge branch 'PaddlePaddle:develop' into winters000

8fdb5d1

Merge branch 'winters000' of github.com:WintersMontagne10335/Paddle i…

1ad8a27

…nto winters000

fix some CI issues

ac7d1f2

JamesLim-sy reviewed Apr 25, 2023

View reviewed changes

WintersMontagne10335 and others added 4 commits April 26, 2023 02:08

fix some CI issues

fa83ab1

Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle into…

1bbdeb6

… winters000

Merge branch 'PaddlePaddle:develop' into winters000

45823ac

Merge branch 'winters000' of github.com:WintersMontagne10335/Paddle i…

81c8610

…nto winters000

WintersMontagne10335 mentioned this pull request May 2, 2023

JamesLim-sy老师可以再审核一下黑客松第四期的34题吗？ #53487

Closed

WintersMontagne10335 added 2 commits May 5, 2023 21:24

Merge branch 'PaddlePaddle:develop' into winters000

4171029

Add files via upload

ff52b7c

fix some CI issues

Merge branch 'PaddlePaddle:develop' into winters000

895db15

JamesLim-sy approved these changes May 16, 2023

View reviewed changes

JamesLim-sy merged commit e592534 into PaddlePaddle:develop May 16, 2023

WintersMontagne10335 deleted the winters000 branch May 17, 2023 23:58

This was referenced May 21, 2023

Fixed some minor issues #54005

Closed

Update lerp_kernel.cu #54071

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

【PaddlePaddle Hackathon 4 No.34】为 Paddle 优化 Lerp OP 在 GPU 上的性能 #53154

【PaddlePaddle Hackathon 4 No.34】为 Paddle 优化 Lerp OP 在 GPU 上的性能 #53154

WintersMontagne10335 commented Apr 21, 2023

paddle-bot bot commented Apr 21, 2023

paddle-bot bot commented Apr 21, 2023

JamesLim-sy Apr 25, 2023

WintersMontagne10335 Apr 26, 2023

JamesLim-sy Apr 25, 2023

WintersMontagne10335 Apr 25, 2023

JamesLim-sy May 2, 2023

WintersMontagne10335 May 3, 2023

JamesLim-sy May 4, 2023 •

edited

Loading

WintersMontagne10335 May 4, 2023

WintersMontagne10335 May 6, 2023

WintersMontagne10335 May 8, 2023

WintersMontagne10335 May 9, 2023

WintersMontagne10335 May 10, 2023

paddle-ci-bot bot commented May 4, 2023

JamesLim-sy left a comment

JamesLim-sy May 16, 2023

WintersMontagne10335 May 21, 2023

【PaddlePaddle Hackathon 4 No.34】为 Paddle 优化 Lerp OP 在 GPU 上的性能 #53154

【PaddlePaddle Hackathon 4 No.34】为 Paddle 优化 Lerp OP 在 GPU 上的性能 #53154

Conversation

WintersMontagne10335 commented Apr 21, 2023

PR types

PR changes

Description

paddle-bot bot commented Apr 21, 2023

paddle-bot bot commented Apr 21, 2023

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

JamesLim-sy May 4, 2023 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

paddle-ci-bot bot commented May 4, 2023

JamesLim-sy left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

JamesLim-sy May 4, 2023 •

edited

Loading