Wint8 gemm and gemv opt #59291

wwbitejotunn · 2023-11-23T06:56:18Z

PR types

Performance optimization

PR changes

OPs

Description

Pcard-71501

This PR optimize the speed of weight only gemm and gemv gpu kernel.

To speed up the weight-only gemm, following features were adopted

using stream-k gemm instead of serial split-k
using multi-warp batch gemv
gemm/gemv dispatch based on problem size m

For gemms with problem sizes in llama13b, we obtain a 1.34x gemm kernel speed in A100 80G.

paddle-bot · 2023-11-23T06:56:23Z

你的PR提交成功，感谢你对开源项目的贡献!
请关注后续CI自动化测试结果，详情请参考Paddle-CI手册。
Your PR has been submitted. Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

vivienfanghuagood · 2023-12-01T06:49:34Z

私以为，升级点在PR里可能应该更详细一点～

MARD1NO

Genius！

zhoutianzi666 · 2023-12-01T07:36:07Z

paddle/phi/infermeta/unary.cc

@@ -5163,7 +5163,7 @@ void WeightQuantizeInferMeta(const MetaTensor& x,
  out->set_dtype(DataType::INT8);

  scale->set_dims(phi::make_ddim(dim_scale));
-  scale->set_dtype(DataType::FLOAT32);


以后scale都是fp16了？

对的, 这边scale改为了bf16/fp16, 能够有更好的性能, 精度应该也能保证, 已经同步修改了weight_quant op中计算scale的部分, 以及paddlenlp代码中scale权重初始化的逻辑

wwbitejotunn · 2023-12-04T05:21:25Z

私以为，升级点在PR里可能应该更详细一点～

已添加了升级点和测试数据~

Xreki

LGTM for const_cast

XiaoguangHu01

LGTM

wwbitejotunn and others added 16 commits November 24, 2023 06:24

fpAintB split-k

51be5cd

workspace

492161a

fix error

21be8ae

just_for_llama13b_bsz64-128

1dc250c

llama13 opt

bbd7b6c

fix scale type of weight ony quant

96b045c

draft gemv batched

391497c

accuracy fix

47c4e83

m size dispatch for gemv and gemm

55d651c

fit dispatch

50719b3

refine gemv

f22ec97

remove useless kernel

3e3dd8f

refine

93b8b65

fix bug for split-k-limit

0389b81

fix bug for half scale

7701ed5

weight quant kernel fit for half scale

1402d7c

wwbitejotunn force-pushed the develop_wint8_gemm_opt branch from 74589d4 to 1402d7c Compare November 24, 2023 07:34

wwbitejotunn added 10 commits November 27, 2023 02:46

fix bf16 compile

445c2dd

fix sm70 autogen

2d144ea

fix sm70 compile error

25c5b14

fix code style

2ff6b8a

update

d187632

update

be7c6b3

code-style

a376b27

code-style

cfd6620

windows compile fix

a4c0401

code-style

37111df

MARD1NO approved these changes Dec 1, 2023

View reviewed changes

zhoutianzi666 previously approved these changes Dec 1, 2023

View reviewed changes

heavengate previously approved these changes Dec 4, 2023

View reviewed changes

raindrops2sea previously approved these changes Dec 4, 2023

View reviewed changes

Xreki previously approved these changes Dec 4, 2023

View reviewed changes

Merge branch 'develop' into develop_wint8_gemm_opt

496a120

wwbitejotunn dismissed stale reviews from Xreki, raindrops2sea, heavengate, and zhoutianzi666 via 496a120 December 4, 2023 09:02

fix merge bug

38b71b0

XiaoguangHu01 approved these changes Dec 6, 2023

View reviewed changes

carryyu merged commit a8456dc into PaddlePaddle:develop Dec 6, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Wint8 gemm and gemv opt #59291

Wint8 gemm and gemv opt #59291

wwbitejotunn commented Nov 23, 2023 •

edited

Loading

paddle-bot bot commented Nov 23, 2023

vivienfanghuagood commented Dec 1, 2023

MARD1NO left a comment

zhoutianzi666 Dec 1, 2023

wwbitejotunn Dec 1, 2023 •

edited

Loading

wwbitejotunn commented Dec 4, 2023

Xreki left a comment

XiaoguangHu01 left a comment

Wint8 gemm and gemv opt #59291

Wint8 gemm and gemv opt #59291

Conversation

wwbitejotunn commented Nov 23, 2023 • edited Loading

PR types

PR changes

Description

paddle-bot bot commented Nov 23, 2023

vivienfanghuagood commented Dec 1, 2023

MARD1NO left a comment

Choose a reason for hiding this comment

zhoutianzi666 Dec 1, 2023

Choose a reason for hiding this comment

wwbitejotunn Dec 1, 2023 • edited Loading

Choose a reason for hiding this comment

wwbitejotunn commented Dec 4, 2023

Xreki left a comment

Choose a reason for hiding this comment

XiaoguangHu01 left a comment

Choose a reason for hiding this comment

wwbitejotunn commented Nov 23, 2023 •

edited

Loading

wwbitejotunn Dec 1, 2023 •

edited

Loading