fix: fix the usage of the code model

ggerganov · May 31, 2024 · 17a5e9f · 17a5e9f
1 parent 21936dd
commit 17a5e9f
Show file tree

Hide file tree

Showing 2 changed files with 4 additions and 2 deletions.
diff --git a/convert-hf-to-gguf.py b/convert-hf-to-gguf.py
@@ -2442,10 +2442,10 @@ def get_tensors(self):
             if 'gated_layer' in name:
                 d1 = data[:self.intermediate_size, :]
                 name1 = name.replace('gated_layers', 'gated_layers_w')
-                name1 = name.replace('up_gated_layer', 'gated_layers_w')
+                name1 = name.replace('up_gated_layer', 'gated_layers_v')
                 d2 = data[self.intermediate_size:, :]
                 name2 = name.replace('gated_layers', 'gated_layers_v')
-                name2 = name.replace('up_gated_layer', 'gated_layers_v')
+                name2 = name.replace('up_gated_layer', 'gated_layers_w')
                 yield name1, d1
                 yield name2, d2
                 continue

diff --git a/llama.cpp b/llama.cpp
@@ -8506,6 +8506,8 @@ struct llm_build_context {
             cur = llm_build_norm(ctx0, cur, hparams, model.layers[il].attn_out_norm, model.layers[il].attn_out_norm_b, LLM_NORM, cb, il);
 
             if (model.layers[il].attn_norm_2 != nullptr) {
+                // re-add the layer input
+                cur = ggml_add(ctx0, cur, inpL);
                 cur = llm_build_norm(ctx0, cur, hparams, model.layers[il].attn_norm_2, model.layers[il].attn_norm_2_b, LLM_NORM, cb, il);
             }