swSgemm

基于申威处理器的单精度稠密矩阵乘Gemm，包含5a和9a版本，均只使用单核组，即单主核进程及64个从核线程
优化方法采用矩阵分块+众核并行+SIMD，矩阵分块大小为32，计算访存比8，根据5a和9a的dma带宽计算理论浮点性能上限分别为约240GFLOPS和360GFLOPS
对于rcr矩阵乘，本代码实现在5a和9a上实际测得浮点性能分别为110GFLOPS和206GFLOPS，达到理论性能峰值的46%和57%，仍有进一步优化空间

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
swSgemm_5a		swSgemm_5a
swSgemm_9a		swSgemm_9a
.gitattributes		.gitattributes
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

swSgemm

About

Releases

Packages

Languages

JerryX94/swSgemm

Folders and files

Latest commit

History

Repository files navigation

swSgemm

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages