Skip to content

基于申威处理器的单精度稠密矩阵乘Gemm,包含5a和9a版本

Notifications You must be signed in to change notification settings

JerryX94/swSgemm

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 

Repository files navigation

swSgemm

基于申威处理器的单精度稠密矩阵乘Gemm,包含5a和9a版本,均只使用单核组,即单主核进程及64个从核线程
优化方法采用矩阵分块+众核并行+SIMD,矩阵分块大小为32,计算访存比8,根据5a和9a的dma带宽计算理论浮点性能上限分别为约240GFLOPS和360GFLOPS
对于rcr矩阵乘,本代码实现在5a和9a上实际测得浮点性能分别为110GFLOPS和206GFLOPS,达到理论性能峰值的46%和57%,仍有进一步优化空间

About

基于申威处理器的单精度稠密矩阵乘Gemm,包含5a和9a版本

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published