metal : mark FA blocks #16372

ggerganov · 2025-10-01T14:55:42Z

Similar optimization as in #14924:

Before running the FA kernel, run a quick pass over the mask to find all -INF blocks and mark them in a fleeting buffer. The FA kernel then checks that buffer to determine if it needs to process a block.

Also unroll some loops better.

Most gains observed for larger head sizes and bigger contexts.

Model	Test	t/s master	t/s gg/metal-fa-opt	Speedup
gemma3 1B Q4_0	pp512	11103.89	11193.33	1.01
gemma3 1B Q4_0	pp2048	11458.31	11591.20	1.01
gemma3 1B Q4_0	pp4096	11646.47	11786.38	1.01
gemma3 1B Q4_0	pp8192	11424.17	11586.18	1.01
gemma3 1B Q4_0	pp16384	10162.08	10928.36	1.08
gemma3 270M Q4_0	pp512	37852.83	38711.10	1.02
gemma3 270M Q4_0	pp2048	41370.85	42241.54	1.02
gemma3 270M Q4_0	pp4096	43306.58	44600.97	1.03
gemma3 270M Q4_0	pp8192	40109.63	41961.18	1.05
gemma3 270M Q4_0	pp16384	34145.22	36322.50	1.06
gemma3 4B Q4_0	pp512	2795.98	2797.77	1.00
gemma3 4B Q4_0	pp2048	2659.50	2969.56	1.12
gemma3 4B Q4_0	pp4096	2551.27	2950.20	1.16
gemma3 4B Q4_0	pp8192	2516.94	2900.49	1.15
gemma3 4B Q4_0	pp16384	2481.45	2777.20	1.12
gpt-oss 20B MXFP4 MoE	pp512	2429.89	2439.77	1.00
gpt-oss 20B MXFP4 MoE	pp2048	2764.66	2803.28	1.01
gpt-oss 20B MXFP4 MoE	pp4096	2674.08	2731.79	1.02
gpt-oss 20B MXFP4 MoE	pp8192	2480.89	2563.84	1.03
gpt-oss 20B MXFP4 MoE	pp16384	2150.29	2259.51	1.05
qwen2 3B Q4_0	pp512	3206.65	3203.57	1.00
qwen2 3B Q4_0	pp2048	3356.57	3365.75	1.00
qwen2 3B Q4_0	pp4096	3093.21	3174.24	1.03
qwen2 3B Q4_0	pp8192	2711.37	2821.38	1.04
qwen2 3B Q4_0	pp16384	2241.79	2276.75	1.02
qwen2 7B Q8_0	pp512	1531.82	1533.04	1.00
qwen2 7B Q8_0	pp2048	1583.26	1586.74	1.00
qwen2 7B Q8_0	pp4096	1522.09	1527.90	1.00
qwen2 7B Q8_0	pp8192	1407.64	1415.64	1.01
qwen2 7B Q8_0	pp16384	1088.01	1226.08	1.13
qwen3 0.6B Q8_0	pp512	14391.06	14314.24	0.99
qwen3 0.6B Q8_0	pp2048	13826.28	14158.68	1.02
qwen3 0.6B Q8_0	pp4096	11400.54	11682.70	1.02
qwen3 0.6B Q8_0	pp8192	8001.53	8544.94	1.07
qwen3 0.6B Q8_0	pp16384	5162.65	5460.53	1.06
qwen3moe 30B.A3B Q4_0	pp512	2194.70	2194.62	1.00
qwen3moe 30B.A3B Q4_0	pp2048	2507.55	2528.96	1.01
qwen3moe 30B.A3B Q4_0	pp4096	2225.35	2250.60	1.01
qwen3moe 30B.A3B Q4_0	pp8192	1808.99	1831.51	1.01
qwen3moe 30B.A3B Q4_0	pp16384	1300.71	1321.72	1.02

jeffbolznv · 2025-10-01T18:34:07Z

Is it possible to add backend tests that exercise this optimization?

ggerganov · 2025-10-01T19:49:35Z

This patch should exercise it, but it's currently very slow:

diff --git a/tests/test-backend-ops.cpp b/tests/test-backend-ops.cpp
index 64f1197dc..54e16bf8f 100644
--- a/tests/test-backend-ops.cpp
+++ b/tests/test-backend-ops.cpp
@@ -131,6 +131,51 @@ static void init_tensor_uniform(ggml_tensor * tensor, float min = -1.0f, float m
     }
 }
 
+static void init_tensor_kq_mask(ggml_tensor * tensor, float min = -1.0f, float max = 1.0f) {
+    GGML_ASSERT(tensor->type == GGML_TYPE_F16);
+
+    GGML_TENSOR_LOCALS( int32_t, ne, tensor, ne);
+    GGML_TENSOR_LOCALS(uint64_t, nb, tensor, nb);
+
+    std::vector<float>       data_f32(ne0*ne1*ne2*ne3);
+    std::vector<ggml_fp16_t> data_f16(ne0*ne1*ne2*ne3);
+
+    std::random_device rd;
+    std::mt19937 gen(rd());
+    std::uniform_real_distribution<float> dis(min, max);
+
+    // fill data_f32 with random floats in [-1.0, 1.0f]
+    for (size_t i = 0; i < data_f32.size(); i++) {
+        data_f32[i] = dis(gen);
+    }
+
+    const int blck_w = 128;
+    const int blck_h = 16;
+
+    // fill roughly half of the mask with -INFINITY
+    const int n_inf_blocks = 0.5*(ne0*ne1*ne2*ne3)/(blck_w*blck_h);
+
+    // choose random block position
+    for (int b = 0; b < n_inf_blocks; b++) {
+        const int i3 = (rd() % ne3);
+        const int i2 = (rd() % ne2);
+        const int i1 = (rd() % ne1);
+        const int i0 = (rd() % ne0);
+
+        for (int y = 0; y < blck_h && i1 + y < ne1; y++) {
+            for (int x = 0; x < blck_w && i0 + x < ne0; x++) {
+                const int i = i3*ne2*ne1*ne0 + i2*ne1*ne0 + (i1 + y)*ne0 + (i0 + x);
+
+                data_f32[i] = -INFINITY;
+            }
+        }
+    }
+
+    ggml_fp32_to_fp16_row(data_f32.data(), data_f16.data(), ne0*ne1*ne2*ne3);
+
+    ggml_backend_tensor_set(tensor, data_f16.data(), 0, data_f16.size()*sizeof(ggml_fp16_t));
+}
+
 static std::vector<float> tensor_to_float(const ggml_tensor * t) {
     std::vector<float> tv;
     tv.reserve(ggml_nelements(t));
@@ -5104,6 +5149,8 @@ struct test_flash_attn_ext : public test_case {
             if (strcmp(t->name, "s") == 0) {
                 // make the sink values more noticable in order to trigger a test failure when the implementation is wrong
                 init_tensor_uniform(t, -10.0f, 10.0f);
+            } else if (strcmp(t->name, "m") == 0) {
+                init_tensor_kq_mask(t);
             } else {
                 init_tensor_uniform(t);
             }

~~I'll try to optimize it tomorrow.~~

Edit: should be ok now

* master: (113 commits) webui: updated the chat service to only include max_tokens in the req… (ggml-org#16489) cpu : optimize the ggml NORM operation (ggml-org#15953) server : host-memory prompt caching (ggml-org#16391) No markdown in cot (ggml-org#16483) model-conversion : add support for SentenceTransformers (ggml-org#16387) ci: add ARM64 Kleidiai build and test support (ggml-org#16462) CANN: Improve ACL graph matching (ggml-org#16166) kleidiai: kernel interface refactoring (ggml-org#16460) [SYCL] refactor soft_max, add soft_max_back (ggml-org#16472) model: EmbeddingGemma Adding Support for SentenceTransformers Dense Modules (ggml-org#16367) refactor: centralize CoT parsing in backend for streaming mode (ggml-org#16394) Disable CUDA host buffers on integrated GPUs (ggml-org#16308) server : fix cancel pending task (ggml-org#16467) metal : mark FA blocks (ggml-org#16372) server : improve context checkpoint logic (ggml-org#16440) ggml webgpu: profiling, CI updates, reworking of command submission (ggml-org#16452) llama : support LiquidAI LFM2-MoE hybrid model (ggml-org#16464) server : add `/v1/health` endpoint (ggml-org#16461) webui : added download action (ggml-org#13552) (ggml-org#16282) presets : fix pooling param for embedding models (ggml-org#16455) ...

ggerganov requested a review from slaren as a code owner October 1, 2025 14:55

github-actions bot added testing Everything test related ggml changes relating to the ggml tensor library for machine learning Apple Metal https://en.wikipedia.org/wiki/Metal_(API) labels Oct 1, 2025

ggerganov mentioned this pull request Oct 2, 2025

tests : add -INF blocks to the KQ mask in the FA tests #16380

Merged

Base automatically changed from gg/fa-kv-pad to master October 7, 2025 05:23

ggerganov requested a review from JohannesGaessler as a code owner October 7, 2025 05:23

ggerganov added 5 commits October 7, 2025 10:07

metal : better unroll in the FA kernels

41a247e

metal : index FA blocks

8caa4b1

tests : restore [no ci]

62f9209

metal : prevent division by zero in FA kernels

467743f

metal : fix -INF detection logic

f478afa

ggerganov force-pushed the gg/metal-fa-opt branch from c619c08 to f478afa Compare October 7, 2025 07:08

ggerganov changed the title ~~metal : index FA blocks~~ metal : mark FA blocks Oct 7, 2025

ggerganov merged commit b2c08c9 into master Oct 8, 2025
71 checks passed

ggerganov deleted the gg/metal-fa-opt branch October 8, 2025 07:57

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

metal : mark FA blocks #16372

metal : mark FA blocks #16372

ggerganov commented Oct 1, 2025

Uh oh!

jeffbolznv commented Oct 1, 2025

Uh oh!

ggerganov commented Oct 1, 2025 •

edited

Loading

Uh oh!

Uh oh!

Uh oh!

metal : mark FA blocks #16372

metal : mark FA blocks #16372

Conversation

ggerganov commented Oct 1, 2025

Uh oh!

jeffbolznv commented Oct 1, 2025

Uh oh!

ggerganov commented Oct 1, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

Uh oh!

ggerganov commented Oct 1, 2025 •

edited

Loading