基于申威处理器的单精度稠密矩阵乘Gemm,包含5a和9a版本,均只使用单核组,即单主核进程及64个从核线程
优化方法采用矩阵分块+众核并行+SIMD,矩阵分块大小为32,计算访存比8,根据5a和9a的dma带宽计算理论浮点性能上限分别为约240GFLOPS和360GFLOPS
对于rcr矩阵乘,本代码实现在5a和9a上实际测得浮点性能分别为110GFLOPS和206GFLOPS,达到理论性能峰值的46%和57%,仍有进一步优化空间
-
Notifications
You must be signed in to change notification settings - Fork 0
JerryX94/swSgemm
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
基于申威处理器的单精度稠密矩阵乘Gemm,包含5a和9a版本
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published